أطلقت Google نموذج «Gemini Omni» الجديد للذكاء الاصطناعي، والذي يتيح إنشاء وتعديل الفيديوهات عبر المحادثة الطبيعية باستخدام أي نوع من المدخلات، بما يشمل النصوص والصور والصوت والفيديو. ويستهدف النموذج نقل Gemini من مرحلة “فهم المحتوى” إلى “إنتاج المحتوى الكامل”، مع قدرات متقدمة لفهم الحركة والفيزياء والسياق الواقعي داخل الفيديوهات. كما بدأت جوجل طرح أول إصدار تحت اسم «Gemini Omni Flash» عبر تطبيق Gemini وYouTube Shorts، في خطوة تعكس تصاعد المنافسة العالمية في سوق الفيديو التوليدي وصناعة المحتوى المعتمد على الذكاء الاصطناعي.
أعلنت Google عن إطلاق «Gemini Omni»، الجيل الجديد من نماذج الذكاء الاصطناعي متعددة الوسائط، في خطوة تستهدف نقل قدرات Gemini من فهم المحتوى وتحليله إلى إنشاء فيديوهات كاملة اعتمادًا على أي نوع من المدخلات، بما يشمل النصوص والصور والصوت والفيديو.
ويمثل «Gemini Omni» المرحلة التالية بعد نموذج «Nano Banana» الذي ركز سابقًا على إنشاء الصور وتعديلها، حيث توسع الشركة الآن قدرات الذكاء الاصطناعي لتشمل إنتاج الفيديو وتحريره عبر أوامر لغوية طبيعية، مع الحفاظ على اتساق الشخصيات والمشاهد والحركة والفيزياء داخل الفيديو.
إنشاء الفيديو عبر “المحادثة”
وتقول جوجل إن المستخدمين يمكنهم تعديل الفيديوهات تدريجيًا من خلال الحوار مع النموذج، دون الحاجة إلى أدوات مونتاج تقليدية، حيث يتذكر النموذج التعديلات السابقة ويُعيد بناء المشاهد مع الحفاظ على تفاصيل البيئة والأسلوب البصري.
كما يتيح النموذج تحويل الفيديوهات الأصلية إلى مشاهد جديدة بالكامل، عبر إضافة شخصيات أو مؤثرات أو تغيير أسلوب التصوير والحركة، بما يحول الفيديو إلى “بيئة قابلة لإعادة الإنتاج المستمر” بدلًا من كونه ملفًا ثابتًا.
دمج الفهم الفيزيائي والمعرفة الواقعية
وترتكز جوجل في النموذج الجديد على دمج قدرات Gemini المعرفية مع التوليد البصري، بحيث لا يقتصر الأمر على إنشاء مشاهد واقعية بصريًا، بل يشمل فهمًا أفضل للحركة والطاقة والجاذبية والسياق الثقافي والعلمي.
وتسعى الشركة من خلال ذلك إلى تطوير فيديوهات أكثر ترابطًا ومنطقية، خاصة في المحتوى التعليمي والسينمائي وصناعة الشروحات البصرية المعقدة.
دعم متعدد للمدخلات والهوية الرقمية
ويستطيع «Gemini Omni» إنشاء الفيديوهات اعتمادًا على أي مزيج من المدخلات، بما يشمل الصور والمقاطع المرئية والنصوص والصوت، مع خطط مستقبلية لتوسيع دعم أنواع الصوت المختلفة.
كما أعلنت جوجل عن ميزة «Avatars» التي تتيح للمستخدمين إنشاء نسخة رقمية لأنفسهم باستخدام أصواتهم وصورهم، لإنتاج فيديوهات تحاكي مظهرهم وطريقة حديثهم.
منافسة متصاعدة في سوق الفيديو التوليدي
ويأتي إطلاق Gemini Omni في وقت تتصاعد فيه المنافسة بين شركات الذكاء الاصطناعي على تطوير نماذج إنتاج الفيديو، خاصة مع توسع تطبيقات المحتوى التوليدي في الإعلام والإعلان وصناعة المحتوى والترفيه والتعليم.
وبدأت جوجل بالفعل طرح أول نموذج ضمن السلسلة الجديدة تحت اسم «Gemini Omni Flash» داخل تطبيق Gemini ومنصة Google Flow وYouTube Shorts، مع خطط لدعم مخرجات إضافية تشمل الصور والصوت مستقبلًا.
ما الذي تعكسه الخطوة؟
• انتقال نماذج الذكاء الاصطناعي من “الفهم” إلى “الإنتاج الكامل” للمحتوى
• تصاعد المنافسة العالمية في سوق الفيديو التوليدي
• دمج أدوات المونتاج وصناعة الفيديو داخل واجهات المحادثة
• توسع دور الذكاء الاصطناعي في الإعلام وصناعة المحتوى والإعلانات
• تركيز متزايد على الهوية الرقمية والمحتوى المُولد بالذكاء الاصطناعي
في المجمل، يعكس إطلاق Gemini Omni تحولًا أوسع في صناعة الذكاء الاصطناعي، حيث تتحول النماذج من أدوات مساعدة للإبداع إلى منصات إنتاج متكاملة قادرة على إنشاء محتوى مرئي متقدم انطلاقًا من المحادثة فقط.
اذا كنت ترى شيءً غير صحيح او ترغب بالمساهمه في هذا الموضوع، قم بمراجعه قسم السياسة التحريرية.