معرفی Veo 3 گوگل؛ مدل هوش مصنوعی ساخت ویدیو با تولید صدا | Google I/O 2025

گوگل در یکی از هیجان‌انگیزترین بخش‌های رویداد Google I/O 2025، از نسخه‌ی جدید مدل تولید ویدیو خود با نام Veo 3 رونمایی کرد؛ مدلی که تحول بزرگی در دنیای هوش مصنوعی و تولید محتوای چندرسانه‌ای ایجاد کرده است. این مدل می‌تواند علاوه بر ساخت ویدیو، به‌صورت خودکار صدا، افکت‌های محیطی و حتی دیالوگ‌ تولید کند و آن‌ها را به‌طور کامل با تصویر هماهنگ سازد.

Veo 3 با تکیه بر فناوری پیشرفته‌ی Google DeepMind و استفاده از داده‌های تصویری و صوتی، تجربه‌ای تازه از خلق ویدیو را فراهم می‌کند. این مدل از طریق اپلیکیشن Gemini و تنها برای مشترکین پلن AI Ultra با قیمت ۲۴۹.۹۹ دلار در ماه قابل استفاده است.

در ادامه این مطلب، به بررسی دقیق قابلیت‌های Veo 3 از جمله تولید صدا و دیالوگ با هوش مصنوعی، فناوری واترمارک نامرئی SynthID برای مقابله با دیپ‌فیک، تفاوت آن با نسخه قبلی Veo 2 و تأثیر این نوآوری بر آینده صنعت تولید ویدیو می‌پردازیم.

خروج از دوران صامت تولید ویدیو با هوش مصنوعی

این سکانس هیجان‌انگیز با جلوه‌های بصری حرفه‌ای و حال‌وهوای فیلم‌های اکشن هالیوودی، کاملاً توسط مدل هوش مصنوعی Veo 3 گوگل تولید شده است؛ بدون دخالت فیلم‌بردار، کارگردان یا بازیگر انسانی.

دمیس هسابیس، مدیرعامل Google DeepMind در جریان رویداد Google I/O 2025 اعلام کرد که با معرفی Veo 3، برای نخستین‌بار شاهد پایان دوران ویدیوهای بدون صدا در مدل‌های هوش مصنوعی هستیم. این مدل می‌تواند سناریویی متنی شامل شخصیت‌ها، موقعیت‌ها و دیالوگ‌ها را دریافت کند و سپس ویدیویی کامل، همراه با صدای مناسب، افکت‌های محیطی و دیالوگ‌های هماهنگ تولید کند.

توانایی Veo 3 در درک صحنه، تولید محتوای بصری و ترکیب آن با خروجی صوتی باعث شده این مدل به یک ابزار انقلابی در تولید محتوای چندرسانه‌ای تبدیل شود. این قابلیت‌ها نه‌تنها کاربردهای هنری و سینمایی را متحول می‌کنند، بلکه راه را برای تولید محتوای خودکار در آموزش، تبلیغات، بازی‌سازی و شبکه‌های اجتماعی نیز باز می‌کنند.

Veo 3 را می‌توان نقطه عطفی در ترکیب هوش مصنوعی با خلاقیت دانست؛ مدلی که فراتر از تصویرسازی، به درک و بازآفرینی تجربه انسانی نزدیک می‌شود.

Veo 3 چه چیزهایی دارد که آن را خاص می‌کند؟

مدل Veo 3 فقط یک ابزار برای ساخت ویدیو نیست؛ این مدل می‌تواند همزمان تصویر و صدا را تحلیل و تولید کند. یعنی نه‌تنها می‌داند در ویدیو چه اتفاقی در حال رخ دادن است (درک بصری)، بلکه می‌تواند صداهایی بسازد که دقیقاً با همان اتفاقات هماهنگ باشند.

توانایی ساخت صداهای هوشمند که دقیقاً با حرکات و صحنه‌ها هم‌زمان پخش می‌شوند
تولید افکت صوتی (مثل صدای باران یا انفجار)، صدای محیط (مثل صدای شهر یا طبیعت)، و دیالوگ بین شخصیت‌ها، به‌صورتی که کاملاً با فضای تصویر هماهنگ باشد
کیفیت ویدیوها نسبت به نسخه قبلی یعنی Veo 2 بالاتر رفته و تصاویر واقعی‌تر و طبیعی‌تری تولید می‌شوند
می‌توان به این مدل یک متن یا عکس داد تا با استفاده از آن، ویدیو بسازد (ورودی چندحالته یا چندرسانه‌ای)
استفاده از تکنولوژی SynthID برای درج علامت‌های نامرئی در ویدیوها، که کمک می‌کند اصل یا تقلبی بودن ویدیو مشخص باشد (یک روش مقابله با جعل یا دیپ‌فیک)

چه کسانی به Veo 3 دسترسی دارند؟

در حال حاضر، مدل Veo 3 فقط برای کاربران حرفه‌ای قابل استفاده است. برای استفاده از این مدل، باید عضو نسخه پولی و پیشرفته برنامه چت‌محور گوگل به نام Gemini باشید. این نسخه که پلن AI Ultra نام دارد، ماهانه ۲۴۹.۹۹ دلار هزینه دارد.

کاربران این پلن می‌توانند فقط با وارد کردن متن یا تصویر، به Veo 3 فرمان بدهند تا یک ویدیوی کامل و صداگذاری‌شده بسازد. (Gemini یک دستیار هوش مصنوعی است که مانند چت‌بات کار می‌کند و می‌تواند متن، عکس، صدا یا ویدیو را درک و تولید کند.)

رقابت داغ میان مدل‌های هوش مصنوعی ویدیوساز

دنیای تولید ویدیوی هوش مصنوعی با سرعت زیادی در حال رشد است و هر روز مدل‌های جدیدی معرفی می‌شوند. ابزارهایی مثل Runway، Pika، Genmo، Lightricks و حتی OpenAI وارد این رقابت شده‌اند و تلاش می‌کنند جایگاه خود را تثبیت کنند.

اما آنچه گوگل با Veo 3 ارائه داده، یک قدم فراتر است: مدلی که نه‌تنها تصویر تولید می‌کند، بلکه می‌تواند صدا، دیالوگ و افکت‌های محیطی را نیز کاملاً هماهنگ با تصویر بسازد. این ویژگی، Veo 3 را به یکی از پیشرفته‌ترین مدل‌ها در حوزه تولید محتوای ویدیویی تبدیل کرده و می‌تواند نگاه ما به آینده خلق محتوا را کاملاً تغییر دهد.

پشت‌صحنه یادگیری Veo 3 چیست؟

گوگل به‌صورت رسمی توضیح نداده که مدل Veo 3 با چه داده‌هایی آموزش دیده، اما احتمال بسیار زیادی وجود دارد که بخش زیادی از ویدیوها و صداهایی که برای آموزش استفاده شده‌اند، از یوتیوب (YouTube) تهیه شده باشند؛ چون این پلتفرم در مالکیت گوگل است و پیش‌تر هم اشاره شده بود که برخی مدل‌های گوگل ممکن است با استفاده از محتوای یوتیوب آموزش دیده باشند.

همچنین تیم DeepMind برای آموزش Veo 3 فقط به تصویر بسنده نکرده، بلکه از ترکیب ویدیو، صدا و دیالوگ استفاده کرده است. این ترکیب باعث شده مدل بتواند هم صحنه‌ها را بهتر درک کند و هم صداهایی بسازد که دقیقاً با فضای تصویر هماهنگ باشند.

معرفی Veo 3 گوگل؛ مدل هوش مصنوعی تولید ویدیو همراه با صدا و افکت‌های صوتی

خروج از دوران صامت تولید ویدیو با هوش مصنوعی

Veo 3 چه چیزهایی دارد که آن را خاص می‌کند؟

چه کسانی به Veo 3 دسترسی دارند؟

رقابت داغ میان مدل‌های هوش مصنوعی ویدیوساز

پشت‌صحنه یادگیری Veo 3 چیست؟