گوگل در یکی از هیجانانگیزترین بخشهای رویداد Google I/O 2025، از نسخهی جدید مدل تولید ویدیو خود با نام Veo 3 رونمایی کرد؛ مدلی که تحول بزرگی در دنیای هوش مصنوعی و تولید محتوای چندرسانهای ایجاد کرده است. این مدل میتواند علاوه بر ساخت ویدیو، بهصورت خودکار صدا، افکتهای محیطی و حتی دیالوگ تولید کند و آنها را بهطور کامل با تصویر هماهنگ سازد.
Veo 3 با تکیه بر فناوری پیشرفتهی Google DeepMind و استفاده از دادههای تصویری و صوتی، تجربهای تازه از خلق ویدیو را فراهم میکند. این مدل از طریق اپلیکیشن Gemini و تنها برای مشترکین پلن AI Ultra با قیمت ۲۴۹.۹۹ دلار در ماه قابل استفاده است.
در ادامه این مطلب، به بررسی دقیق قابلیتهای Veo 3 از جمله تولید صدا و دیالوگ با هوش مصنوعی، فناوری واترمارک نامرئی SynthID برای مقابله با دیپفیک، تفاوت آن با نسخه قبلی Veo 2 و تأثیر این نوآوری بر آینده صنعت تولید ویدیو میپردازیم.
خروج از دوران صامت تولید ویدیو با هوش مصنوعی
دمیس هسابیس، مدیرعامل Google DeepMind در جریان رویداد Google I/O 2025 اعلام کرد که با معرفی Veo 3، برای نخستینبار شاهد پایان دوران ویدیوهای بدون صدا در مدلهای هوش مصنوعی هستیم. این مدل میتواند سناریویی متنی شامل شخصیتها، موقعیتها و دیالوگها را دریافت کند و سپس ویدیویی کامل، همراه با صدای مناسب، افکتهای محیطی و دیالوگهای هماهنگ تولید کند.
توانایی Veo 3 در درک صحنه، تولید محتوای بصری و ترکیب آن با خروجی صوتی باعث شده این مدل به یک ابزار انقلابی در تولید محتوای چندرسانهای تبدیل شود. این قابلیتها نهتنها کاربردهای هنری و سینمایی را متحول میکنند، بلکه راه را برای تولید محتوای خودکار در آموزش، تبلیغات، بازیسازی و شبکههای اجتماعی نیز باز میکنند.
Veo 3 را میتوان نقطه عطفی در ترکیب هوش مصنوعی با خلاقیت دانست؛ مدلی که فراتر از تصویرسازی، به درک و بازآفرینی تجربه انسانی نزدیک میشود.
Veo 3 چه چیزهایی دارد که آن را خاص میکند؟
مدل Veo 3 فقط یک ابزار برای ساخت ویدیو نیست؛ این مدل میتواند همزمان تصویر و صدا را تحلیل و تولید کند. یعنی نهتنها میداند در ویدیو چه اتفاقی در حال رخ دادن است (درک بصری)، بلکه میتواند صداهایی بسازد که دقیقاً با همان اتفاقات هماهنگ باشند.
- توانایی ساخت صداهای هوشمند که دقیقاً با حرکات و صحنهها همزمان پخش میشوند
- تولید افکت صوتی (مثل صدای باران یا انفجار)، صدای محیط (مثل صدای شهر یا طبیعت)، و دیالوگ بین شخصیتها، بهصورتی که کاملاً با فضای تصویر هماهنگ باشد
- کیفیت ویدیوها نسبت به نسخه قبلی یعنی Veo 2 بالاتر رفته و تصاویر واقعیتر و طبیعیتری تولید میشوند
- میتوان به این مدل یک متن یا عکس داد تا با استفاده از آن، ویدیو بسازد (ورودی چندحالته یا چندرسانهای)
- استفاده از تکنولوژی SynthID برای درج علامتهای نامرئی در ویدیوها، که کمک میکند اصل یا تقلبی بودن ویدیو مشخص باشد (یک روش مقابله با جعل یا دیپفیک)
چه کسانی به Veo 3 دسترسی دارند؟
در حال حاضر، مدل Veo 3 فقط برای کاربران حرفهای قابل استفاده است. برای استفاده از این مدل، باید عضو نسخه پولی و پیشرفته برنامه چتمحور گوگل به نام Gemini باشید. این نسخه که پلن AI Ultra نام دارد، ماهانه ۲۴۹.۹۹ دلار هزینه دارد.
کاربران این پلن میتوانند فقط با وارد کردن متن یا تصویر، به Veo 3 فرمان بدهند تا یک ویدیوی کامل و صداگذاریشده بسازد. (Gemini یک دستیار هوش مصنوعی است که مانند چتبات کار میکند و میتواند متن، عکس، صدا یا ویدیو را درک و تولید کند.)
رقابت داغ میان مدلهای هوش مصنوعی ویدیوساز
دنیای تولید ویدیوی هوش مصنوعی با سرعت زیادی در حال رشد است و هر روز مدلهای جدیدی معرفی میشوند. ابزارهایی مثل Runway، Pika، Genmo، Lightricks و حتی OpenAI وارد این رقابت شدهاند و تلاش میکنند جایگاه خود را تثبیت کنند.
اما آنچه گوگل با Veo 3 ارائه داده، یک قدم فراتر است: مدلی که نهتنها تصویر تولید میکند، بلکه میتواند صدا، دیالوگ و افکتهای محیطی را نیز کاملاً هماهنگ با تصویر بسازد. این ویژگی، Veo 3 را به یکی از پیشرفتهترین مدلها در حوزه تولید محتوای ویدیویی تبدیل کرده و میتواند نگاه ما به آینده خلق محتوا را کاملاً تغییر دهد.
پشتصحنه یادگیری Veo 3 چیست؟
گوگل بهصورت رسمی توضیح نداده که مدل Veo 3 با چه دادههایی آموزش دیده، اما احتمال بسیار زیادی وجود دارد که بخش زیادی از ویدیوها و صداهایی که برای آموزش استفاده شدهاند، از یوتیوب (YouTube) تهیه شده باشند؛ چون این پلتفرم در مالکیت گوگل است و پیشتر هم اشاره شده بود که برخی مدلهای گوگل ممکن است با استفاده از محتوای یوتیوب آموزش دیده باشند.
همچنین تیم DeepMind برای آموزش Veo 3 فقط به تصویر بسنده نکرده، بلکه از ترکیب ویدیو، صدا و دیالوگ استفاده کرده است. این ترکیب باعث شده مدل بتواند هم صحنهها را بهتر درک کند و هم صداهایی بسازد که دقیقاً با فضای تصویر هماهنگ باشند.