نشرت الشركة وثيقة على موقع Hugging Face تُفصّل النماذج الجديدة وقدراتها. تتكون عائلة DeepSeek-V4 من نموذجين ببنية "مزيج الخبراء" (MoE). الأول، DeepSeek-V4-Pro، يحتوي على 1.6 تريليون مُعامل، مع أنه يُفعّل 49 مليار مُعامل فقط في كل استدلال. أما الثاني، DeepSeek-V4-Flash، فيعمل مع 284 مليار مُعامل ويُفعّل 13 مليار مُعامل في كل استعلام.
بحسب الاختبارات الداخلية، يُصنّف نموذج DeepSeek-V4-Pro، في وضع الاستدلال الأقصى، كأفضل نموذج مفتوح المصدر في عدة مجالات. ففي مجال المعرفة العامة، يتفوق على سابقيه بفارق كبير في اختبار SimpleQA-Verified. أما في البرمجة التنافسية، فقد حاز على المركز الثالث والعشرين في تصنيف Codeforces بين المرشحين البشريين، ووفقًا لبيانات البحث نفسه، فهو أول نموذج مفتوح المصدر يُضاهي GPT-5.4 في هذه المهمة تحديدًا.
بالمقارنة مع نماذج عملاقة مثل Gemini 3.1-Pro أو Claude Opus 4.6، يختلف الوضع. ففي مجال المعرفة العامة والاستدلال، لا يزال DeepSeek-V4-Pro-Max متأخرًا عن Gemini-3.1-Pro وGPT-5.4 في بعض الاختبارات، على الرغم من تفوقه على Gemini-3.1 Pro في استرجاع المعلومات ذات السياقات الطويلة. أما في مهام الوكلاء، فيُظهر الذكاء الاصطناعي أداءً مماثلاً لنماذج المصادر المفتوحة الأخرى، ولكنه لا يتفوق على الأنظمة المغلقة من جول وOpenAI وAnthropic.أحد أسباب انتشار DeepSeek الواسع هو تقنيتها. لم تستطع شركات الذكاء الاصطناعي، وحتى شركة NVIDIA، فهم كيف لا يتطلب نموذجٌ بهذه الكفاءة كل هذه القدرة الحاسوبية. تحافظ الشركة الصينية على بنية MoE، مع أنها حسّنتها بميزات جديدة تُعالج الانتباه بطريقة مختلفة.تتطلب المحولات التقليدية تكلفة حسابية تزداد مع طول النص، مما يجعل معالجة النصوص الطويلة جدًا عمليةً تستهلك موارد النظام بشكل مفرط. بينما لا يتطلب DeepSeek-V4-Pro سوى 27% من العمليات الحسابية التي كان يتطلبها DeepSeek-V3.2، ويشغل ما يقارب 10% فقط من ذاكرة التخزين المؤقت KV.
أصبح هذا ممكنًا بفضل آلية هجينة تجمع بين تقنيتين: الانتباه المتفرق المضغوط والانتباه عالي الضغط. تعمل الأولى على ضغط كتل المفتاح والقيمة، ثم تطبق الانتباه المتفرق لاختيار المدخلات الأكثر صلة فقط. أما الثانية، فتزيد من هذا الضغط، مما يقلل من حجم ذاكرة التخزين المؤقت للمفتاح والقيمة بشكل أكبر.
وصرح ديكي وونغ، المدير التنفيذي للأبحاث في شركة Usmart Securities، لصحيفة South China Morning Post: "يتميز نموذج DeepSeek بكفاءة عالية، لذا يتزايد الطلب على الاستدلال بسرعة. وهذا يدعم أسهم شركات تصنيع الرقائق والأجهزة، لأن الشركات لا تزال بحاجة إلى الاستثمار في وحدات معالجة الرسومات أو رقائق Ascend من هواوي لتشغيل هذه النماذج على نطاق واسع."
يحافظ النموذج الجديد على نظام المصادر المفتوحة، مما يسمح بتنزيل الأوزان من Hugging Face. وبالمقارنة مع الإصدار السابق، يتمتع DeepSeek - V4 Pro بقدرات محسّنة للوكيل وفهم عميق للعالم لا يتفوق عليه سوى Gemini - 3.1 Pro. ويُقدم إصدار V4 Flash أداءً مماثلاً لإصداره السابق في الاستدلال ومهام الوكيل البسيطة، على الرغم من أنه يستجيب بشكل أسرع.
يمكن لمن يرغب في تجربته القيام بذلك من خلال الموقع الإلكتروني أو تطبيقات iOS و Android.



No comments:
Post a Comment