أعلنت جوجل خلال مؤتمر المطورين السنوي Google I/O 2025 إطلاق الجيل الثالث من نموذجها المتقدم لتوليد الفيديو عبر الذكاء الاصطناعي، Veo 3، وهو يتميز بقدرته على إنتاج مؤثرات صوتية وأصوات خلفية وحوارات متزامنة مع المقاطع التي يُنشئها لأول مرة.
وأكّدت جوجل أن Veo 3 يُعد تطورًا كبيرًا مقارنة بالإصدار السابق Veo 2، ليس فقط من ناحية جودة الصورة، بل أيضًا من خلال إدماجه الكامل للصوت في المشاهد المُولدة.
ويتوفر النموذج الجديد بدءًا من اليوم داخل تطبيق Gemini المُخصص للمشتركين في باقة “AI Ultra” بسعر قدره 250 دولارًا شهريًا، إذ يمكن تشغيله عبر التعليمات النصية أو الصور.
وصرّح ديميس هاسابيس، الرئيس التنفيذي لشركة ديب مايند، الذراع البحثية في الذكاء الاصطناعي لجوجل، قائلًا: “إننا نغادر اليوم عصر الفيديو الصامت لأول مرة. يمكنك الآن إعطاء Veo 3 وصفًا للشخصيات والمشهد، واقتراح حوار معين مع تحديد نبرة الصوت المطلوبة”.
وتُعد ميزة إخراج الصوت عنصرًا فارقًا قد يمنح Veo 3 أفضلية ملموسة، خاصةً في ظل الزخم الذي يشهده مجال توليد مقاطع الفيديو بالذكاء الاصطناعي، مع دخول العديد من الشركات هذا المجال، وتشابه النتائج.
وما يميّز Veo 3، وفقًا لجوجل، هو قدرته على تحليل البكسلات في مقاطع الفيديو وربطها بالصوت المولّد تلقائيًا بطريقة متزامنة، وهو ما يجعل النتائج أكثر واقعية وتماسكًا. وتستند هذه الإمكانيات إلى أعمال ديب مايند السابقة في مجال “تحويل الفيديو إلى صوت”، إذ كشفت العام الماضي عن تقنيات لتوليد المؤثرات الصوتية.