-->

إعلان بالهواتف فقط

إعلان بالحواسيب فقط


يتزايد تخصص الذكاء الاصطناعي في مجالات مختلفة. وهذه المرة، امتد نطاقه ليشمل أحد أكثر أشكال الوسائط المتعددة استخدامًا في العالم: البودكاست. أصدرت مايكروسوفت مؤخرًا تطبيق VibeVoice-Realtime-0.5B، وهو نموذج تحويل نص إلى كلام (TTS) قادر على توليد صوت طبيعي في 300 ميلي ثانية فقط من لحظة إرسال الطلب.

بمعنى آخر، باستخدام هذه الأداة، ما عليك سوى كتابة نص، وسيقوم الذكاء الاصطناعي بتحويله إلى صوت بشري سلس، بنغمات وتنغيمات واقعية، دون أي فترات انتظار طويلة. في الواقع، يمكنه توليد صوت لمدة تصل إلى 90 دقيقة دون أي فقدان للجودة. لذلك، يمكن أن يكون هذا التطبيق حلاً مثاليًا لإنشاء البودكاست، أو الكتب الصوتية، أو المحتوى المروي.

بهذه الطريقة، يهدف VibeVoice إلى تعميم إنتاج الصوت الاحترافي. فهو يتيح لأي مُبدع امتلاك استوديو تسجيل (وإن كان افتراضيًا) من جهاز الكمبيوتر الخاص به. ومع ذلك، يجب علينا أيضًا مراعاة التساؤلات الأخلاقية التي يثيرها استخدامه...

VibeVoice (الاختصار الذي سنستخدمه من الآن فصاعدًا) هو نموذج تحويل نص إلى كلام (TTS) طورته مايكروسوفت. صدر مؤخرًا بموجب ترخيص مفتوح المصدر، لذا يُمكن استخدامه مجانًا الآن. لكن ما يميزه الرئيسي، إلى جانب كونه مجانيًا، هو قدرته على بدء إنتاج الكلام في غضون 300 ميلي ثانية فقط بعد استلام النص. هذا وقت سريع للغاية، يتجاوز بكثير الثواني أو الثواني القليلة التي تتطلبها الأنظمة الأخرى عادةً.

يحتوي على 0.5 كيلوبايت فقط من المعلمات، وهو حجم قد يبدو متواضعًا مقارنةً بالنماذج الكاملة مثل ChatGPT أو Gemini، ولكنه بالضبط ما يسمح لنا بإنشاء ما يصل إلى 90 دقيقة من الصوت المتواصل بصوت واضح ونبرة صوت ثابتة. وتظل هذه الجودة عالية طوال مدة البودكاست.

 صُمم هذا النموذج لتحويل كميات كبيرة من النصوص إلى كلام بسلاسة وفورية، مما يجعله مثاليًا لجميع أنواع المحتوى الصوتي: من البودكاست والروايات إلى الكتب الصوتية والحوارات الخيالية والمقابلات التجريبية. يُعد هذا التنوع جذابًا للغاية للمبدعين المستقلين ذوي الموارد المحدودة عند إنشاء محتوى الوسائط المتعددة. ما عليك سوى مشاركة نص مع الذكاء الاصطناعي، وسيتولى VibeVoice الباقي.

مع ذلك، أصدرت مايكروسوفت هذا الذكاء الاصطناعي في إطار بحثي، وحذّرت من استخدامه في التزييف العميق أو انتحال الشخصية أو أي أغراض غير قانونية أخرى.

نظرًا لكونه ذكاء اصطناعيًا مُركّبًا للصوت، فإننا نواجه مخاطر أخلاقية وتقنية مباشرة. إذا وقع هذا التطبيق في الأيدي الخطأ، فإنه يُتيح إمكانية إنشاء مقاطع صوتية مُزيفة، وانتحال أصوات، وإنتاج محتوى مُضلّل، أو استخدامه دون موافقة. في معلومات إطلاقه، تُحذّر مايكروسوفت صراحةً من الاستخدامات غير القانونية مثل الاحتيال أو سرقة الهوية، وتحظر استخدامه في سياق التضليل الإعلامي. ورغم قدرة النموذج على توليد صوت طبيعي (يمكنك سماعه في التغريدة أعلاه)، إلا أنه لا يزال غير قادر على مضاهاة الأصوات البشرية الطبيعية بكل تفاصيلها الدقيقة، من حيث التنغيم، والتوقفات الطبيعية، والتنفس، والدلالات العاطفية...

ليست هناك تعليقات:

إرسال تعليق

جميع الحقوق محفوظة ل حوحو للمعلوميات 2025
تصميم و تكويد : بيكود