-->

إعلان بالهواتف فقط

إعلان بالحواسيب فقط

أطلقت جوجل معيارًا جديدًا لتصنيف أفضل نماذج الذكاء الاصطناعي لتطوير تطبيقات أندرويد. ووفقًا للشركة، تكمن فكرة هذا المشروع في إنشاء نظام يُقيّم قدرات النماذج في مهام التطوير، مما يُسهم في زيادة الإنتاجية. وكما هو متوقع، يتصدر Gemini 3.1 Pro قائمة أفضل نماذج الذكاء الاصطناعي، بينما يأتي Claude وGPT-5.2 في المرتبة الثانية.

وترى جوجل أن المعايير العامة غير مناسبة لقياس المنافسة في سوق أندرويد. فكتابة أكواد بايثون عامة لا تُغني عن إدارة دورة حياة نشاط أو تطبيق بنية نظيفة في تطبيق جوال. وتعتقد جوجل أن معيار أندرويد سيكون بمثابة مرجع أساسي يُجنّب المطورين إضاعة الوقت في استخدام أدوات غير مُجدية.

وبحسب التصنيف، يُعدّ نموذجا جوجل وAnthropic الأفضل لتطوير التطبيقات. وقد حقق Gemini 3.1 Pro Preview نسبة 72.4%، وهي نسبة تُمثل متوسط ​​100 اختبار ناجح موزعة على 10 جولات. يحقق أفضل نموذج للشركة هامش ثقة يتراوح بين 65% و79%، وهو مقياس يُستخدم لقياس الموثوقية الإحصائية للنتائج.

يأتي بعد جوجل Claude Opus 4.6 وGPT-5.2 Codex، بنسبتي ثقة 66.6% و62.5% على التوالي. يليهما Claude Opus 4.5  وGemini 3 Pro ، مع أن Claude Sonnet 4.6 يحتل مرتبة متقدمة أيضًا. يُظهر نموذج Anthropic  متوسط ​​الأداء أداءً يصل إلى خمسة أضعاف أداء Gemini 2.5 Flash، وهو نموذج ذكاء اصطناعي بالكاد يحقق موثوقية 10%.

على عكس معايير الأداء الأخرى، يتألف Android Bench من 100 مهمة مختارة من مجموعة أولية تضم ما يقارب 39,000 طلب سحب على GitHub. قامت جوجل بتصفية المستودعات التي تضم أكثر من 500 نجمة والتغييرات التي أُجريت عليها خلال السنوات الثلاث الماضية، لضمان اختبار معايير الأداء وفقًا للمعايير الحالية وليس على التعليمات البرمجية القديمة.

ووفقًا لموقع Android Bench الإلكتروني، تُمنح أعلى الدرجات لمعايير الأداء التي تُظهر كفاءة عالية في أربعة مجالات رئيسية: واجهة المستخدم، والتزامن، والمثابرة، وحقن التبعية.

تعتمد 71% من الاختبارات على لغة Kotlin، مقارنةً بـ 25% على لغة Java. علاوةً على ذلك، ورغم أن معظم المستودعات على GitHub عبارة عن تطبيقات، يُظهر الاختبار المعياري أن 58% من مهامها تتعلق بتطوير المكتبات. ويتراوح حجم المهام من إصلاحات لا تتجاوز 27 سطرًا إلى تغييرات تتجاوز 400 سطر، ما يغطي تقريبًا كامل نطاق عمل مطور برامج متمرس.

ولمنع الذكاء الاصطناعي من النجاح بمجرد حفظ الكود أثناء التدريب، تستخدم جوجل إجراءات وقائية وتحققًا يدويًا من الخطوات التي يتبعها النموذج. وهذا يضمن أن معدل نجاح Gemini البالغ 72.4% يعكس قدرته على حل المشكلات في الوقت الفعلي.

وفقًا لجدول Android Bench، هذا ترتيب أفضل نماذج الذكاء الاصطناعي لتطوير التطبيقات لنظام تشغيل الهاتف المحمول الخاص بك :

Gemini 3.1 Pro Preview: 72.4%

Claude Opus 4.6: 66.6%

GPT-5.2 Codex: 62.5%

Claude Opus 4.5: 61.9%

Gemini 3 Pro Preview: 60.4%

Claude Sonnet 4.6: 58.4%

Claude Sonnet 4.5: 54.2%

Gemini 3 Flash Preview: 42%

Gemini 2.5 Flash: 16.1%

ليست هناك تعليقات:

إرسال تعليق

جميع الحقوق محفوظة ل حوحو للمعلوميات 2026
تصميم و تكويد : بيكود