در سالهای اخیر، هوش مصنوعی با سرعتی چشمگیر در حوزه تولید محتوا پیشرفت کرده است. ابتدا با نوشتن متن، سپس با ساختن تصاویر، و حالا با تولید ویدیوهایی که گاه آنقدر طبیعی بهنظر میرسند که مرز میان واقعیت و تخیل را محو میکنند. ابزارهایی مثل SORA از شرکت OpenAI، Gen-2 از Runway، و مدلهای سبکتری مانند Pika توانستهاند فقط با دریافت یک جمله ساده، ویدیوهایی واقعگرایانه و دیدنی خلق کنند.
با این حال، پشت ظاهر خیرهکننده این مدلها، محدودیتهایی نهفته است. بیشتر این سیستمها از «مدلهای انتشار» (Diffusion Models) استفاده میکنند؛ روشی که بهجای ساخت ویدیو بهصورت مرحلهبهمرحله، کل سکانس را یکجا پردازش میکند. اگرچه این مدلها میتوانند صحنههایی بسیار باکیفیت و دقیق بسازند، اما معمولاً سرعت کمی دارند، امکان تعامل زنده در حین تولید را فراهم نمیکنند، و گاهی در فریمهای پایانی، دچار افت کیفیت و ناهماهنگی در حرکتها میشوند.
در همین نقطه، مدل جدیدی به نام CausVid وارد صحنه شده است. این مدل ترکیبی، با الهام گرفتن از دو روش متفاوت در هوش مصنوعی—یکی برای درک کلی ساختار ویدیویی، و دیگری برای تولید سریع و مرحلهبهمرحله فریمها—قادر است ویدیوهایی با کیفیت بالا را تنها در چند ثانیه تولید کند. در عین حال، CausVid به کاربر اجازه میدهد حین تولید، ورودیهای جدید بدهد یا صحنه را تغییر دهد؛ قابلیتی که بسیاری از مدلهای پیشین از آن بیبهره بودند.
CausVid نه بهعنوان آغازگر یک انقلاب، بلکه بهعنوان ادامهای هوشمندانه بر مسیر پرشتاب نسلهای قبلی مدلهای ویدیوساز، تعریف میشود؛ مدلی که وعده میدهد آینده تولید محتوای ویدیویی نهتنها سریعتر، بلکه تعاملیتر، دقیقتر و خلاقانهتر خواهد بود.
تحولی در تولید ویدیو با هوش مصنوعی؛ CausVid چگونه مرزها را جابهجا میکند؟
در دنیای تولید ویدیو با هوش مصنوعی، دو رویکرد اصلی وجود دارد که تاکنون بیشتر مدلها از آنها استفاده کردهاند.
رویکرد اول: مدلهای انتشار (Diffusion Models)
در این مدلها، کل سکانس ویدیو بهصورت یکباره و همزمان پردازش میشود. سیستم ابتدا یک تصویر پر از نویز میسازد و سپس بهمرور، تصویر واقعی را از دل آن استخراج میکند. وقتی این فرایند برای مجموعهای از فریمها انجام میشود، یک کلیپ کامل بهدست میآید. مزیت این روش، کیفیت تصویری بسیار بالا و جزئیات دقیق است. اما در مقابل، چون همه چیز باید از ابتدا تا انتها بهطور کامل پردازش شود، تولید ویدیو زمان زیادی میبرد. علاوه بر آن، کاربر نمیتواند در حین ساخت، تغییراتی در صحنه بدهد یا ورودیهای جدیدی ارائه کند. خروجی، بستهای یکپارچه و بسته است.
رویکرد دوم: مدلهای خودبازگشتی (Autoregressive Models)
در این رویکرد، ویدیو بهصورت فریمبهفریم ساخته میشود؛ یعنی مدل ابتدا فریم اول را میسازد، سپس با استفاده از آن به فریم دوم میرسد و همینطور ادامه میدهد. این روش سریعتر است و امکان تولید لحظهای یا بهاصطلاح تعاملی را فراهم میکند. اما ایراد بزرگ آن این است که چون فریمها بهصورت مستقل و دنبالهدار ساخته میشوند، مدل ممکن است نتواند انسجام بین آنها را حفظ کند. نتیجه آن، ویدیوهایی است که در ابتدا روان بهنظر میرسند، اما هرچه جلوتر میروند، حرکات غیرطبیعی میشوند و چهرهها یا اجسام از فرم خارج میشوند — پدیدهای که به آن «انباشت خطا» (Error Accumulation) گفته میشود.
مدل CausVid برای رفع محدودیتهای قبلی، از ترکیب هوشمندانه دو معماری استفاده میکند. ابتدا یک مدل انتشار قدرتمند، مانند یک «معلم حرفهای»، وظیفه دارد ساختار کلی و منسجم یک ویدیو را تولید کند. سپس، این ویدیو بهعنوان الگو به یک مدل خودبازگشتی سبکتر منتقل میشود؛ مدلی که مثل «دانشآموزی سریع و باهوش»، از معلم یاد میگیرد که چگونه فریمها را یکییکی، اما با حفظ انسجام و کیفیت، بازسازی کند.
نتیجه این همکاری، سیستمی است که نهتنها میتواند در چند ثانیه ویدیوهایی با کیفیت بالا بسازد، بلکه هنگام ساخت، به کاربر اجازه میدهد دستورهای جدیدی بدهد، عناصر تازهای به صحنه اضافه کند یا مسیر داستان را تغییر دهد — آن هم بدون اینکه انسجام تصویر از بین برود یا ویدیو غیرطبیعی بهنظر برسد.
معرفی CausVid؛ معماری ترکیبی برای ساخت سریع، منسجم و قابلتعامل ویدیو
مدل CausVid که توسط تیمی از پژوهشگران MIT و Adobe Research طراحی شده، همانطور که در بخش قبل اشاره شد، با ترکیب دو رویکرد متفاوت—مدل انتشار و مدل خودبازگشتی—مدلی سریع و تعاملی برای تولید ویدیو ارائه میدهد. این ترکیب نهتنها کیفیت تصویر بالا را حفظ میکند، بلکه امکان تولید سریع و انعطافپذیر را نیز فراهم میسازد—چیزی که تاکنون در هیچیک از مدلهای قبلی بهصورت کامل محقق نشده بود.
دو قلب تپنده CausVid: مدل انتشار و مدل خودبازگشتی
در قلب CausVid دو مؤلفه اصلی وجود دارد: یک مدل انتشار (Diffusion Model) و یک مدل خودبازگشتی (Autoregressive Model) که بهصورت مکمل در کنار هم کار میکنند.
مدل انتشار، ساختاری مبتنی بر یادگیری تدریجی از نویز است. این مدل ابتدا یک ورودی کاملاً بیمعنی (مثلاً تصویری پر از نویز) تولید میکند و سپس در چندین مرحله آن را بازسازی میکند تا به یک فریم واقعی، شفاف و با جزئیات برسد. مدلهای انتشار در سالهای اخیر بهدلیل خروجیهای چشمنوازشان در تولید عکس و ویدیو بسیار مورد توجه قرار گرفتهاند، اما همانطور که پیشتر گفتیم، سرعت پایین و فقدان تعاملپذیری آنها همچنان نقطهضعف بزرگی است.
در طرف دیگر، مدلهای خودبازگشتی قرار دارند؛ این مدلها ویدیو را فریمبهفریم و دنبالهوار تولید میکنند. این یعنی هر فریم جدید بر پایهی خروجی فریم قبل ساخته میشود. چنین معماریای، اگرچه سریعتر است و امکان تغییر در لحظه را فراهم میکند، اما اغلب دچار پدیدهای به نام انباشت خطا (Error Accumulation) میشود؛ در این حالت، فریمها بهمرور از یکدیگر فاصله میگیرند و ویدیو دچار ناهماهنگیهای بصری و حرکتی میشود.
چگونه CausVid از مدل معلم به مدل دانشآموز میرسد؟
CausVid دقیقاً در این نقطه وارد میشود و با ترکیب این دو رویکرد، نقطهقوت هر یک را به کار میگیرد تا نقطهضعف دیگری را جبران کند. فرآیند کار به این صورت است:
۱. ابتدا مدل انتشار یک ویدیوی کامل و باکیفیت بالا تولید میکند.
این ویدیو نقش نوعی «الگوی مرجع» (Teacher Output) را دارد.
۲. سپس، مدل خودبازگشتی این ویدیو را بهعنوان داده آموزشی دریافت
میکند و یاد میگیرد چگونه بدون وابستگی مستقیم به مدل انتشار، به
همان کیفیت خروجی برسد.
۳. نتیجه نهایی، مدلی سبک، سریع و مستقل است که میتواند بهتنهایی،
از یک دستور متنی ساده (Prompt) شروع کند و ویدیویی کامل، منسجم و
پویا تولید کند.
اما آنچه CausVid را فراتر از یک مدل آموزشدیده قرار میدهد، قابلیت تعاملپذیری لحظهای آن است. برخلاف مدلهای مرسوم، این سیستم قادر است در حین تولید ویدیو، ورودیهای جدید دریافت کرده و به آنها پاسخ دهد. برای مثال، شما میتوانید ابتدا درخواست کنید «مردی در حال عبور از خیابان» ساخته شود، و چند ثانیه بعد، دستور جدیدی بدهید: «وقتی به آنطرف رسید، در دفترچهاش چیزی بنویسد». CausVid این تغییر را بدون قطع روند تولید اعمال میکند و همچنان انسجام تصویری و حرکتی را حفظ میکند.
این قابلیت، حاصل طراحی دقیق ارتباط بین مدل معلم (Diffusion) و مدل دانشآموز (Autoregressive) در فرآیند یادگیری است؛ جایی که کیفیت یادگیری بالا میرود، اما بار پردازشی بهمراتب کاهش مییابد.
در نهایت، CausVid نهتنها سرعت و کیفیت را با هم ترکیب کرده، بلکه دروازهای تازه به سوی ساخت ویدیوهای تعاملی، خلاقانه و حتی ویدیوهایی با طول بلند و پیچیدگی بالا باز کرده است—آنهم با هزینهی محاسباتی بهمراتب کمتر نسبت به مدلهای سنگین و کندِ قبلی.
چه چیزی CausVid را خاص میکند؟
مدل CausVid تنها یک ابزار دیگر برای ساخت ویدیو نیست، بلکه پاسخی هوشمندانه به مجموعهای از نیازها و ضعفهای قدیمی در سیستمهای تولید محتوای ویدیویی است. سه ویژگی کلیدی این مدل، آن را از مدلهای قبلی متمایز میکند:
- سرعت بالا: ویدیوهایی که پیشتر ساخت آنها به چند دقیقه زمان نیاز داشت، حالا با CausVid تنها در چند ثانیه تولید میشوند. این افزایش سرعت بدون کاهش کیفیت و صرفاً بهلطف معماری ترکیبی مدل محقق شده است.
- انعطافپذیری لحظهای: CausVid میتواند نهتنها یک تصویر ثابت را به ویدیو تبدیل کند یا ادامهی یک کلیپ را بسازد، بلکه در میانهی تولید نیز به ورودیهای جدید پاسخ دهد. برای مثال، کاربر میتواند هنگام ساخت صحنه، کاراکتری جدید اضافه کند یا مسیر داستان را تغییر دهد، بدون آنکه انسجام ویدیو از بین برود.
- خلاقیت در داستانپردازی: در تستهای انجامشده، این مدل توانسته صحنههایی خیالانگیز و منحصربهفرد تولید کند. از پرواز یک هواپیمای کاغذی که به قوی سفید تبدیل میشود، تا کودکی که با هیجان در گودال آب میپرد—همگی نمونههایی از توانایی CausVid در ساخت لحظاتی تخیلی و در عین حال منسجم هستند.
عملکرد CausVid در آزمایشها
ویدیو با همکاری پژوهشگران MIT و Adobe Research
برای ارزیابی میزان کارایی و برتری CausVid، محققان آن را با چند مدل شناختهشده در حوزه تولید ویدیو مانند OpenSORA و MovieGen مقایسه کردند. این آزمایشها شامل سنجش سرعت، کیفیت تصویر، پایداری و عملکرد در مواجهه با دستورات متنی متنوع بود. نتایج بهدستآمده، نشاندهندهی یک جهش جدی در قابلیتهای نسل جدید مدلهای تولید ویدیو است.
- سرعت تولید تا ۱۰۰ برابر بیشتر نسبت به مدلهای پایه، بدون افت کیفیت؛
- کیفیت بصری چشمگیر با سطح جزئیات بالا و بازسازی واقعگرایانهی حرکات؛
- ثبات تصویر در طول زمان حتی در ویدیوهای طولانیتری مثل کلیپهای ۳۰ ثانیهای، که معمولاً در مدلهای قبلی با ناهماهنگی مواجه میشدند؛
- کسب رتبه نخست در آزمونی شامل بیش از ۹۰۰ دستور متنی (Prompt) که معیارهایی مانند پاسخگویی دقیق به ورودی، تنوع تولید و تطابق با هدف را بررسی میکرد؛
- امتیاز نهایی ۸۴.۲۷ در مقیاس ارزیابی جامع شامل کیفیت تصویر، واقعگرایی صحنهها و جذابیت کلی برای بیننده.
این نتایج نشان میدهند که CausVid نهتنها از نظر فنی، بلکه از نظر تجربهی کاربری و توانایی در اجرای سناریوهای واقعی، در ردیف بهترین مدلهای موجود قرار میگیرد — و در بسیاری از معیارها، حتی فراتر از آنها عمل میکند.
آیندهای درخشان برای ساخت ویدیو با هوش مصنوعی
توسعهدهندگان CausVid معتقدند این مدل تنها نقطهی شروع است. آنها میگویند اگر این سیستم روی مجموعههای دادهای تخصصیتر آموزش ببیند—برای مثال، ویدیوهای آموزشی، محتوای بازیهای رایانهای یا شبیهسازیهای صنعتی—میتواند محتوایی بسیار حرفهایتر، سریعتر و هدفمندتر تولید کند.
حتی این احتمال مطرح شده که نسخههای سبکتر و بهینهسازیشدهی این مدل، در آینده بتوانند ویدیوها را بهصورت «لحظهای» و در زمان واقعی (real-time) تولید کنند؛ امکانی که میتواند صنعت پخش زنده، بازیهای تعاملی و آموزش مجازی را دگرگون کند.
دکتر جون-یان ژو، استاد دانشگاه کارنگی ملون که در این پروژه حضور نداشته، درباره این مدل گفته است:
«مدلهای انتشار در ساخت تصویر و ویدیو بهطرز شگفتانگیزی دقیقاند، اما سرعت آنها بسیار پایین است. مدل ترکیبی CausVid راهحلی مؤثر برای این مسئله ارائه میدهد—مدلی که میتواند محتوا را سریعتر، تعاملیتر و با مصرف انرژی کمتر تولید کند.»
این پروژه با پشتیبانی نهادها و شرکتهای بزرگی توسعه یافته است؛ از جمله Amazon، Google، Adobe و همچنین مراکز تحقیقاتی وابسته به نیروی هوایی ایالات متحده.
قرار است دستاوردهای این مدل برای نخستین بار در کنفرانس بینایی ماشین و تشخیص الگو (CVPR 2025) بهصورت رسمی ارائه شود—رویدادی که یکی از معتبرترین محافل علمی جهان در حوزه هوش مصنوعی و پردازش تصویر بهشمار میرود.