تُحرز جوجل تقدمًا هائلًا في سوق الذكاء الاصطناعي. بدا وكأن لا أحد يستطيع منافسة OpenAI بنموذج GPT الخاص بها، لكن جوجل تُحرز تقدمًا متزايدًا في هذا القطاع.
لا يقتصر الأمر على امتلاكها لبرنامج Gemini، أحد أفضل بدائل ChatGPT حاليًا، بل قدمت مؤخرًا العديد من الأدوات الجذابة المبنية على هذا النموذج: Veo 3، وNano Banana، وNotebookLM، وGenie 3، ووضع الذكاء الاصطناعي الخاص بمحرك البحث، وغيرها.والآن، قدمت ذكاءً اصطناعيًا يُمكنه تصفح الإنترنت نيابةً عنك. هذا صحيح، فقد أطلقت جوجل مؤخرًا Gemini 2.5 Computer Use، وهو نموذج متقدم يعمل كعامل تحكم في المتصفح. سنشرحه بالتفصيل أدناه ونكشف عن كيفية تجربته.
- ما هو Gemini 2.5 Computer Use
هو نموذج متخصص مبني على قدرات الرؤية والاستدلال في جيميني 2.5 برو. لا يُنشئ هذا النموذج نصوصًا كروبوتات الدردشة التقليدية، بل هو مصمم للتفاعل مع واجهات مستخدم صفحات الويب.
هذا يعني أنه باتباع تعليمات المستخدم، يمكنه النقر والضغط على الأزرار واختيار الخيارات والكتابة وإجراء أنواع أخرى من الإدخال، مع تفسير البيئة الرقمية التي يعمل فيها لتحقيق الهدف المطلوب.
- ما هو الغرض من Gemini 2.5 Computer Use ؟
يُعدّ Gemini 2.5 Computer Use الجديد لاستخدام الحاسوب أول تقدم كبير من جوجل في مشروعها لأتمتة البيئات الرقمية باستخدام الذكاء الاصطناعي. وبينما يقتصر حاليًا على التحكم في متصفحات الويب، فإن الهدف هو تطويره إلى وكلاء ذكاء اصطناعي يتفاعلون مباشرةً مع واجهات البرامج وأنظمة التشغيل وغيرها.
تشمل مهامه الرئيسية الحالية ما يلي:
- أتمتة مهام الويب: يتيح لك إكمال وإرسال نماذج معقدة، وإدارة التسجيلات، أو إجراء عمليات شراء عبر الإنترنت دون تدخل يدوي.
- البحث عن المعلومات : يمكنه إجراء مهام بحث متعددة المراحل، والتنقل عبر صفحات ويب متعددة لجمع البيانات ومقارنتها وتلخيصها.
- اختبار التطبيقات أو مواقع الويب : يمكن للمطورين استخدامه لأتمتة الانحدار والاختبار الشامل لتطبيقات الويب، والبحث عن الأخطاء، والتحقق من تدفق المستخدمين.
- تسجيل الدخول إلى مواقع الويب : يمكنه العمل في بيئات تتطلب المصادقة، ومعالجة القوائم المنسدلة، وتجاوز مرشحات تسجيل الدخول.
- كيفية استخدام Gemini 2.5 Computer Use؟
أول ما يجب معرفته هو أن Gemini 2.5 Computer Use عبارة عن واجهة برمجة تطبيقات Gemini، والطريقة الرسمية لتجربته هي من خلال Google AI Studio وVertex AI. يتطلب الأمر بعض المعرفة البرمجية، حيث ستحتاج إلى بناء وكيل التحكم في المتصفح الخاص بك.يمكنك أيضًا تجربة عرض توضيحي سهل الاستخدام للعامة. إنه موقع متصفح جيميني (الرابط أدناه)، حيث ستجد مربع دردشة لطلب مهمة تصفح من عرض جيميني 2.5 التجريبي.
- الرابط Gemini 2.5 Computer Use
إذا كنت مبرمجًا وترغب في اختبار إمكانيات Gemini 2.5 Computer Use، فستحتاج إلى العمل على الكود. للقيام بذلك، ستحتاج إلى إنشاء حساب في Google AI Studio، منصة جوجل المصممة لتوفير الوصول إلى واجهات برمجة تطبيقات Gemini ("مفاتيح API").
بعد الحصول عليها، افتح دفتر Colab "مقدمة إلى نموذج وأداة استخدام Gemini 2.5 للحاسوب" وقم بتكوين الكود لنموذج "gemini-2.5-computer-use-preview-10-2025"، بالإضافة إلى حلقة الوكيل. أخيرًا، أدخل مفتاح API الخاص بك (الذي تحصل عليه بالنقر على "الحصول على مفتاح API") وشغّل الكود.
ليست هناك تعليقات:
إرسال تعليق