لوگوی موبایل سایت آی ترندز(ITrends) ITrends
ایکون سرچ
ایکون سرچ
لوگوی دسکتاپ سایت آی‌ ترندز(bestintro) ITrends
ایکون سرچ

CausVid؛ مدل ترکیبی MIT برای ساخت سریع ویدیو با هوش مصنوعی

آیکون نویسنده مهدی رنجبر
آیکون ساعت
تصویری از سه ویدیوی تولیدشده با هوش مصنوعی CausVid؛ هیولاهای کارتونی رنگارنگ، ماموت‌ها در طبیعت برفی و غواص کوچکی روی برگ سبز

در سال‌های اخیر، هوش مصنوعی با سرعتی چشمگیر در حوزه تولید محتوا پیشرفت کرده است. ابتدا با نوشتن متن، سپس با ساختن تصاویر، و حالا با تولید ویدیوهایی که گاه آن‌قدر طبیعی به‌نظر می‌رسند که مرز میان واقعیت و تخیل را محو می‌کنند. ابزارهایی مثل SORA از شرکت OpenAI، Gen-2 از Runway، و مدل‌های سبک‌تری مانند Pika توانسته‌اند فقط با دریافت یک جمله ساده، ویدیوهایی واقع‌گرایانه و دیدنی خلق کنند.

با این حال، پشت ظاهر خیره‌کننده این مدل‌ها، محدودیت‌هایی نهفته است. بیشتر این سیستم‌ها از «مدل‌های انتشار» (Diffusion Models) استفاده می‌کنند؛ روشی که به‌جای ساخت ویدیو به‌صورت مرحله‌به‌مرحله، کل سکانس را یکجا پردازش می‌کند. اگرچه این مدل‌ها می‌توانند صحنه‌هایی بسیار باکیفیت و دقیق بسازند، اما معمولاً سرعت کمی دارند، امکان تعامل زنده در حین تولید را فراهم نمی‌کنند، و گاهی در فریم‌های پایانی، دچار افت کیفیت و ناهماهنگی در حرکت‌ها می‌شوند.

در همین نقطه، مدل جدیدی به نام CausVid وارد صحنه شده است. این مدل ترکیبی، با الهام گرفتن از دو روش متفاوت در هوش مصنوعی—یکی برای درک کلی ساختار ویدیویی، و دیگری برای تولید سریع و مرحله‌به‌مرحله فریم‌ها—قادر است ویدیوهایی با کیفیت بالا را تنها در چند ثانیه تولید کند. در عین حال، CausVid به کاربر اجازه می‌دهد حین تولید، ورودی‌های جدید بدهد یا صحنه را تغییر دهد؛ قابلیتی که بسیاری از مدل‌های پیشین از آن بی‌بهره بودند.

CausVid نه به‌عنوان آغازگر یک انقلاب، بلکه به‌عنوان ادامه‌ای هوشمندانه بر مسیر پرشتاب نسل‌های قبلی مدل‌های ویدیو‌ساز، تعریف می‌شود؛ مدلی که وعده می‌دهد آینده تولید محتوای ویدیویی نه‌تنها سریع‌تر، بلکه تعاملی‌تر، دقیق‌تر و خلاقانه‌تر خواهد بود.

تحولی در تولید ویدیو با هوش مصنوعی؛ CausVid چگونه مرزها را جابه‌جا می‌کند؟

یک فضانورد در لباس سنگین در حال قدم‌زدن روی برگ‌های سبز بزرگ است.

در دنیای تولید ویدیو با هوش مصنوعی، دو رویکرد اصلی وجود دارد که تاکنون بیشتر مدل‌ها از آن‌ها استفاده کرده‌اند.

رویکرد اول: مدل‌های انتشار (Diffusion Models)

در این مدل‌ها، کل سکانس ویدیو به‌صورت یک‌باره و همزمان پردازش می‌شود. سیستم ابتدا یک تصویر پر از نویز می‌سازد و سپس به‌مرور، تصویر واقعی را از دل آن استخراج می‌کند. وقتی این فرایند برای مجموعه‌ای از فریم‌ها انجام می‌شود، یک کلیپ کامل به‌دست می‌آید. مزیت این روش، کیفیت تصویری بسیار بالا و جزئیات دقیق است. اما در مقابل، چون همه چیز باید از ابتدا تا انتها به‌طور کامل پردازش شود، تولید ویدیو زمان زیادی می‌برد. علاوه بر آن، کاربر نمی‌تواند در حین ساخت، تغییراتی در صحنه بدهد یا ورودی‌های جدیدی ارائه کند. خروجی، بسته‌ای یک‌پارچه و بسته است.

رویکرد دوم: مدل‌های خودبازگشتی (Autoregressive Models)

در این رویکرد، ویدیو به‌صورت فریم‌به‌فریم ساخته می‌شود؛ یعنی مدل ابتدا فریم اول را می‌سازد، سپس با استفاده از آن به فریم دوم می‌رسد و همین‌طور ادامه می‌دهد. این روش سریع‌تر است و امکان تولید لحظه‌ای یا به‌اصطلاح تعاملی را فراهم می‌کند. اما ایراد بزرگ آن این است که چون فریم‌ها به‌صورت مستقل و دنباله‌دار ساخته می‌شوند، مدل ممکن است نتواند انسجام بین آن‌ها را حفظ کند. نتیجه آن، ویدیوهایی است که در ابتدا روان به‌نظر می‌رسند، اما هرچه جلوتر می‌روند، حرکات غیرطبیعی می‌شوند و چهره‌ها یا اجسام از فرم خارج می‌شوند — پدیده‌ای که به آن «انباشت خطا» (Error Accumulation) گفته می‌شود.

مدل CausVid برای رفع محدودیت‌های قبلی، از ترکیب هوشمندانه دو معماری استفاده می‌کند. ابتدا یک مدل انتشار قدرتمند، مانند یک «معلم حرفه‌ای»، وظیفه دارد ساختار کلی و منسجم یک ویدیو را تولید کند. سپس، این ویدیو به‌عنوان الگو به یک مدل خودبازگشتی سبک‌تر منتقل می‌شود؛ مدلی که مثل «دانش‌آموزی سریع و باهوش»، از معلم یاد می‌گیرد که چگونه فریم‌ها را یکی‌یکی، اما با حفظ انسجام و کیفیت، بازسازی کند.

نتیجه این همکاری، سیستمی است که نه‌تنها می‌تواند در چند ثانیه ویدیوهایی با کیفیت بالا بسازد، بلکه هنگام ساخت، به کاربر اجازه می‌دهد دستورهای جدیدی بدهد، عناصر تازه‌ای به صحنه اضافه کند یا مسیر داستان را تغییر دهد — آن‌ هم بدون اینکه انسجام تصویر از بین برود یا ویدیو غیرطبیعی به‌نظر برسد.

معرفی CausVid؛ معماری ترکیبی برای ساخت سریع، منسجم و قابل‌تعامل ویدیو

مدل CausVid که توسط تیمی از پژوهشگران MIT و Adobe Research طراحی شده، همان‌طور که در بخش قبل اشاره شد، با ترکیب دو رویکرد متفاوت—مدل انتشار و مدل خودبازگشتی—مدلی سریع و تعاملی برای تولید ویدیو ارائه می‌دهد. این ترکیب نه‌تنها کیفیت تصویر بالا را حفظ می‌کند، بلکه امکان تولید سریع و انعطاف‌پذیر را نیز فراهم می‌سازد—چیزی که تاکنون در هیچ‌یک از مدل‌های قبلی به‌صورت کامل محقق نشده بود.

دو قلب تپنده CausVid: مدل انتشار و مدل خودبازگشتی

در قلب CausVid دو مؤلفه اصلی وجود دارد: یک مدل انتشار (Diffusion Model) و یک مدل خودبازگشتی (Autoregressive Model) که به‌صورت مکمل در کنار هم کار می‌کنند.

مدل انتشار، ساختاری مبتنی بر یادگیری تدریجی از نویز است. این مدل ابتدا یک ورودی کاملاً بی‌معنی (مثلاً تصویری پر از نویز) تولید می‌کند و سپس در چندین مرحله آن را بازسازی می‌کند تا به یک فریم واقعی، شفاف و با جزئیات برسد. مدل‌های انتشار در سال‌های اخیر به‌دلیل خروجی‌های چشم‌نوازشان در تولید عکس و ویدیو بسیار مورد توجه قرار گرفته‌اند، اما همان‌طور که پیش‌تر گفتیم، سرعت پایین و فقدان تعامل‌پذیری آن‌ها همچنان نقطه‌ضعف بزرگی است.

در طرف دیگر، مدل‌های خودبازگشتی قرار دارند؛ این مدل‌ها ویدیو را فریم‌به‌فریم و دنباله‌وار تولید می‌کنند. این یعنی هر فریم جدید بر پایه‌ی خروجی فریم قبل ساخته می‌شود. چنین معماری‌ای، اگرچه سریع‌تر است و امکان تغییر در لحظه را فراهم می‌کند، اما اغلب دچار پدیده‌ای به نام انباشت خطا (Error Accumulation) می‌شود؛ در این حالت، فریم‌ها به‌مرور از یکدیگر فاصله می‌گیرند و ویدیو دچار ناهماهنگی‌های بصری و حرکتی می‌شود.

چگونه CausVid از مدل معلم به مدل دانش‌آموز می‌رسد؟

CausVid دقیقاً در این نقطه وارد می‌شود و با ترکیب این دو رویکرد، نقطه‌قوت هر یک را به کار می‌گیرد تا نقطه‌ضعف دیگری را جبران کند. فرآیند کار به این صورت است:

۱. ابتدا مدل انتشار یک ویدیوی کامل و باکیفیت بالا تولید می‌کند. این ویدیو نقش نوعی «الگوی مرجع» (Teacher Output) را دارد.
۲. سپس، مدل خودبازگشتی این ویدیو را به‌عنوان داده آموزشی دریافت می‌کند و یاد می‌گیرد چگونه بدون وابستگی مستقیم به مدل انتشار، به همان کیفیت خروجی برسد.
۳. نتیجه نهایی، مدلی سبک، سریع و مستقل است که می‌تواند به‌تنهایی، از یک دستور متنی ساده (Prompt) شروع کند و ویدیویی کامل، منسجم و پویا تولید کند.

اما آنچه CausVid را فراتر از یک مدل آموزش‌دیده قرار می‌دهد، قابلیت تعامل‌پذیری لحظه‌ای آن است. برخلاف مدل‌های مرسوم، این سیستم قادر است در حین تولید ویدیو، ورودی‌های جدید دریافت کرده و به آن‌ها پاسخ دهد. برای مثال، شما می‌توانید ابتدا درخواست کنید «مردی در حال عبور از خیابان» ساخته شود، و چند ثانیه بعد، دستور جدیدی بدهید: «وقتی به آن‌طرف رسید، در دفترچه‌اش چیزی بنویسد». CausVid این تغییر را بدون قطع روند تولید اعمال می‌کند و همچنان انسجام تصویری و حرکتی را حفظ می‌کند.

این قابلیت، حاصل طراحی دقیق ارتباط بین مدل معلم (Diffusion) و مدل دانش‌آموز (Autoregressive) در فرآیند یادگیری است؛ جایی که کیفیت یادگیری بالا می‌رود، اما بار پردازشی به‌مراتب کاهش می‌یابد.

در نهایت، CausVid نه‌تنها سرعت و کیفیت را با هم ترکیب کرده، بلکه دروازه‌ای تازه به سوی ساخت ویدیوهای تعاملی، خلاقانه و حتی ویدیوهایی با طول بلند و پیچیدگی بالا باز کرده است—آن‌هم با هزینه‌ی محاسباتی به‌مراتب کمتر نسبت به مدل‌های سنگین و کندِ قبلی.

چه چیزی CausVid را خاص می‌کند؟

مدل CausVid تنها یک ابزار دیگر برای ساخت ویدیو نیست، بلکه پاسخی هوشمندانه به مجموعه‌ای از نیازها و ضعف‌های قدیمی در سیستم‌های تولید محتوای ویدیویی است. سه ویژگی کلیدی این مدل، آن را از مدل‌های قبلی متمایز می‌کند:

  • سرعت بالا: ویدیوهایی که پیش‌تر ساخت آن‌ها به چند دقیقه زمان نیاز داشت، حالا با CausVid تنها در چند ثانیه تولید می‌شوند. این افزایش سرعت بدون کاهش کیفیت و صرفاً به‌لطف معماری ترکیبی مدل محقق شده است.
  • انعطاف‌پذیری لحظه‌ای: CausVid می‌تواند نه‌تنها یک تصویر ثابت را به ویدیو تبدیل کند یا ادامه‌ی یک کلیپ را بسازد، بلکه در میانه‌ی تولید نیز به ورودی‌های جدید پاسخ دهد. برای مثال، کاربر می‌تواند هنگام ساخت صحنه، کاراکتری جدید اضافه کند یا مسیر داستان را تغییر دهد، بدون آنکه انسجام ویدیو از بین برود.
  • خلاقیت در داستان‌پردازی: در تست‌های انجام‌شده، این مدل توانسته صحنه‌هایی خیال‌انگیز و منحصربه‌فرد تولید کند. از پرواز یک هواپیمای کاغذی که به قوی سفید تبدیل می‌شود، تا کودکی که با هیجان در گودال آب می‌پرد—همگی نمونه‌هایی از توانایی CausVid در ساخت لحظاتی تخیلی و در عین حال منسجم هستند.

عملکرد CausVid در آزمایش‌ها

CausVid فرآیند پیچیده تولید ویدیو را از ۵۰ مرحله به چند اقدام ساده کاهش می‌دهد و امکان ساخت سریع و تعاملی ویدیو را فراهم می‌سازد.
ویدیو با همکاری پژوهشگران MIT و Adobe Research

برای ارزیابی میزان کارایی و برتری CausVid، محققان آن را با چند مدل شناخته‌شده در حوزه تولید ویدیو مانند OpenSORA و MovieGen مقایسه کردند. این آزمایش‌ها شامل سنجش سرعت، کیفیت تصویر، پایداری و عملکرد در مواجهه با دستورات متنی متنوع بود. نتایج به‌دست‌آمده، نشان‌دهنده‌ی یک جهش جدی در قابلیت‌های نسل جدید مدل‌های تولید ویدیو است.

  • سرعت تولید تا ۱۰۰ برابر بیشتر نسبت به مدل‌های پایه، بدون افت کیفیت؛
  • کیفیت بصری چشمگیر با سطح جزئیات بالا و بازسازی واقع‌گرایانه‌ی حرکات؛
  • ثبات تصویر در طول زمان حتی در ویدیوهای طولانی‌تری مثل کلیپ‌های ۳۰ ثانیه‌ای، که معمولاً در مدل‌های قبلی با ناهماهنگی مواجه می‌شدند؛
  • کسب رتبه نخست در آزمونی شامل بیش از ۹۰۰ دستور متنی (Prompt) که معیارهایی مانند پاسخ‌گویی دقیق به ورودی، تنوع تولید و تطابق با هدف را بررسی می‌کرد؛
  • امتیاز نهایی ۸۴.۲۷ در مقیاس ارزیابی جامع شامل کیفیت تصویر، واقع‌گرایی صحنه‌ها و جذابیت کلی برای بیننده.

این نتایج نشان می‌دهند که CausVid نه‌تنها از نظر فنی، بلکه از نظر تجربه‌ی کاربری و توانایی در اجرای سناریوهای واقعی، در ردیف بهترین مدل‌های موجود قرار می‌گیرد — و در بسیاری از معیارها، حتی فراتر از آن‌ها عمل می‌کند.

آینده‌ای درخشان برای ساخت ویدیو با هوش مصنوعی

توسعه‌دهندگان CausVid معتقدند این مدل تنها نقطه‌ی شروع است. آن‌ها می‌گویند اگر این سیستم روی مجموعه‌های داده‌ای تخصصی‌تر آموزش ببیند—برای مثال، ویدیوهای آموزشی، محتوای بازی‌های رایانه‌ای یا شبیه‌سازی‌های صنعتی—می‌تواند محتوایی بسیار حرفه‌ای‌تر، سریع‌تر و هدفمندتر تولید کند.

حتی این احتمال مطرح شده که نسخه‌های سبک‌تر و بهینه‌سازی‌شده‌ی این مدل، در آینده بتوانند ویدیوها را به‌صورت «لحظه‌ای» و در زمان واقعی (real-time) تولید کنند؛ امکانی که می‌تواند صنعت پخش زنده، بازی‌های تعاملی و آموزش مجازی را دگرگون کند.

دکتر جون-یان ژو، استاد دانشگاه کارنگی ملون که در این پروژه حضور نداشته، درباره این مدل گفته است:

«مدل‌های انتشار در ساخت تصویر و ویدیو به‌طرز شگفت‌انگیزی دقیق‌اند، اما سرعت آن‌ها بسیار پایین است. مدل ترکیبی CausVid راه‌حلی مؤثر برای این مسئله ارائه می‌دهد—مدلی که می‌تواند محتوا را سریع‌تر، تعاملی‌تر و با مصرف انرژی کمتر تولید کند.»

این پروژه با پشتیبانی نهادها و شرکت‌های بزرگی توسعه یافته است؛ از جمله Amazon، Google، Adobe و همچنین مراکز تحقیقاتی وابسته به نیروی هوایی ایالات متحده.

قرار است دستاوردهای این مدل برای نخستین بار در کنفرانس بینایی ماشین و تشخیص الگو (CVPR 2025) به‌صورت رسمی ارائه شود—رویدادی که یکی از معتبرترین محافل علمی جهان در حوزه هوش مصنوعی و پردازش تصویر به‌شمار می‌رود.