لوگوی موبایل سایت آی ترندز(ITrends) ITrends
ایکون سرچ
ایکون سرچ
لوگوی دسکتاپ سایت آی‌ ترندز(bestintro) ITrends
ایکون سرچ

مدل هوش مصنوعی جدید، صدا و تصویر را بدون دخالت انسان هماهنگ می‌کند

آیکون نویسنده مهدی رنجبر
آیکون ساعت
زنی در حال نواختن ویولنسل در کنار آیکون‌های صدا و تصویر، نمادی از تطبیق هوشمند صدا و تصویر توسط هوش مصنوعی

محققان یک مدل پیشرفته از هوش مصنوعی طراحی کرده‌اند که می‌تواند بدون نیاز به راهنمایی یا آموزش مستقیم انسان، صدا و تصویر را در ویدیوها به‌صورت خودکار با هم تطبیق دهد. این پیشرفت گام مهمی در ساخت سیستم‌هایی است که مثل انسان، ارتباط بین شنیده‌ها و دیده‌ها را درک می‌کنند.

برخلاف روش‌های قدیمی که نیاز بود انسان‌ها به مدل بگویند «کدام صدا برای کدام تصویر است»، این مدل خودش از روی ویدیو یاد می‌گیرد که چه اتفاقی در تصویر و صدا رخ می‌دهد و چطور آن‌ها را با هم هماهنگ کند.

در ادامه این مطلب، بررسی می‌کنیم این مدل چطور کار می‌کند، چه ویژگی‌هایی دارد و چرا می‌تواند در آینده به ربات‌ها کمک کند مثل انسان‌ها دنیا را بفهمند و به آن واکنش نشان دهند.

هوش مصنوعی‌ای که دنیا را مثل انسان می‌فهمد: ترکیب صدا و تصویر در یک نگاه

تصور کنید یک کامپیوتر بتواند همزمان صدا را بشنود و تصویر را ببیند—و حتی بداند که این دو به هم مربوط‌اند. این دقیقاً همان چیزی است که محققان در این پروژه دنبال می‌کنند: ساخت سیستمی که بتواند مثل انسان‌ها صحنه‌ها را درک کند.

اندرو رودیچنکو، یکی از نویسندگان این پژوهش، می‌گوید: «ما در حال ساخت سیستم‌هایی هستیم که مثل انسان‌ها دنیا را پردازش کنند؛ یعنی بتوانند هم‌زمان صدا و تصویر را دریافت و به‌طور هماهنگ تحلیل کنند.»

منظور از «تحلیل هماهنگ» این است که سیستم بفهمد صدا و تصویر در یک لحظه خاص از ویدیو به چه چیزی اشاره دارند— برای مثال وقتی تصویر ترن هوایی را می‌بیند و همزمان صدای جیغ یا حرکت آن را می‌شنود، متوجه ارتباط بین آن‌ها شود.

این نوع درک چندرسانه‌ای، یعنی توانایی فهمیدن ترکیب صدا و تصویر، قدم بزرگی در هوش مصنوعی است که می‌تواند در آینده به ساخت ربات‌هایی منجر شود که با دنیای واقعی طبیعی‌تر و هوشمندانه‌تر تعامل می‌کنند.

هدف: تطبیق هوشمند صدا و تصویر در لحظه، بدون نیاز به دخالت انسان

یکی از چالش‌های بزرگ در دنیای هوش مصنوعی این است که بتوان صدا و تصویر را به‌صورت کاملاً دقیق و در لحظه با یکدیگر تطبیق داد— به‌خصوص بدون آن‌که انسان از قبل مشخص کرده باشد که «کدام صدا مربوط به کدام بخش تصویر است».

در این پروژه، محققان سیستمی طراحی کرده‌اند که می‌تواند برای هر فریم (تصویر لحظه‌به‌لحظه از ویدیو) دقیقاً صدایی را که در همان لحظه پخش می‌شود شناسایی کند و آن دو را به هم مرتبط کند. این یعنی مدل می‌فهمد که، مثلاً، صدای بسته شدن در یا پرواز هواپیما در کجای تصویر اتفاق افتاده است.

نتیجه این کار، مدلی است که می‌تواند ویدیوها را نه بر اساس عنوان یا توضیح، بلکه صرفاً با استفاده از صدا جست‌وجو کند— برای مثال وقتی کاربر یک صدای خاص مثل «ترن هوایی» را وارد می‌کند، مدل ویدیویی را پیدا می‌کند که آن صدا واقعاً در آن شنیده می‌شود.

همچنین این مدل قادر است صحنه‌های صوتی-تصویری را به‌طور دقیق دسته‌بندی کند. صحنه صوتی-تصویری یعنی موقعیتی که در آن، صدا و تصویر هم‌زمان معنا دارند— مثل صدای برخورد توپ با زمین در یک مسابقه یا صدای موتور ماشین در لحظه شتاب گرفتن.

روش کار مدل جدید: درک دقیق‌تر صدا و تصویر با تقسیم زمان

تصویری مفهومی از عملکرد مدل هوش مصنوعی CAV-MAE Sync در تطبیق دقیق صدا و تصویر با تقسیم زمان به پنجره‌های کوچک

مدل جدید با نام CAV-MAE Sync نسخه‌ای ارتقاء‌یافته از مدل قبلی به نام CAV-MAE است. در نسخه قبلی، صدا و تصویر به‌صورت کلی در نظر گرفته می‌شدند؛ یعنی اگر در یک ویدیو، مثلاً در بسته می‌شد و فقط یک ثانیه صدا شنیده می‌شد، کل ویدیو (مثلاً ۱۰ ثانیه) با آن صدا تطبیق داده می‌شد—درحالی‌که فقط یک لحظه مهم بود.

اما در نسخه جدید، پژوهشگران صدا را به بخش‌های زمانی کوچک‌تر تقسیم کرده‌اند (که به آن‌ها «پنجره‌های زمانی» گفته می‌شود). این یعنی مدل می‌تواند برای هر بخش کوتاه از صدا، یک نمای جداگانه بسازد و آن را با همان لحظه از تصویر تطبیق دهد.

در هوش مصنوعی، به این روش می‌گویند بازنمایی جزئی یا دقیق‌سازی، یعنی مدل به‌جای درک کلی، لحظه‌به‌لحظه یاد می‌گیرد «چه چیزی دیده می‌شود» و «چه چیزی شنیده می‌شود».

این تغییر باعث شده مدل بسیار دقیق‌تر و هوشمندتر عمل کند و بتواند حتی لحظه‌های کوتاه و حساس در ویدیوها را به‌درستی تحلیل و طبقه‌بندی کند.

چطور مدل هم ارتباط بین صدا و تصویر را می‌فهمد، هم جزئیات را حفظ می‌کند

تصویری مفهومی از عملکرد هوش مصنوعی در تشخیص هم‌زمان صدا و تصویر خواننده با استفاده از توکن‌های Global و Register

برای اینکه این مدل هوش مصنوعی هم در تشخیص ارتباط بین صدا و تصویر خوب عمل کند و هم بتواند جزئیات دقیق هر صحنه را به خاطر بسپارد، پژوهشگران تغییراتی در ساختار درونی آن اعمال کرده‌اند.

در واقع، مدل باید هم بفهمد که «این صدا با این تصویر همخوانی دارد» (که به آن یادگیری تضادی گفته می‌شود)، و هم بتواند اگر کاربر از او خواست، به‌دقت بازگو کند که «در آن لحظه دقیقاً چه صدا یا تصویری بوده است» (که به آن یادگیری بازسازی می‌گویند).

برای رسیدن به این تعادل، دو نوع عنصر هوشمند در مدل طراحی شده‌اند که به آن‌ها توکن گفته می‌شود. توکن‌ها در واقع بخش‌هایی از اطلاعات هستند که مدل بر اساس آن‌ها یاد می‌گیرد و تصمیم می‌گیرد.

نخست، توکن‌های کلی (Global Tokens) طراحی شده‌اند که به مدل کمک می‌کنند تشخیص دهد «کدام صدا با کدام تصویر مرتبط است»—یعنی همان بخش یادگیری تضادی.

دوم، توکن‌های ثبت (Register Tokens) هستند که به مدل کمک می‌کنند جزئیات ظریف مثل «چه رنگی؟ چه صدایی؟ چه شکلی؟» را در هر لحظه به خاطر بسپارد— این همان چیزی است که برای بازسازی دقیق داده‌ها به آن نیاز دارد.

همان‌طور که اندرو رودیچنکو می‌گوید: «چون با داده‌هایی سروکار داریم که هم صدا دارند و هم تصویر (یعنی داده‌های چندوجهی)، باید مدلی بسازیم که هم در فهم هرکدام از آن‌ها به‌تنهایی قوی باشد و هم بتواند آن‌ها را به‌خوبی با هم ترکیب کند.»

نتیجه شگفت‌انگیز: مدلی ساده‌تر که بهتر از روش‌های پیچیده کار می‌کند

با وجود اینکه مدل‌های زیادی در دنیای هوش مصنوعی وجود دارند که برای آموزش به حجم زیادی از داده‌ها نیاز دارند، این مدل جدید توانسته با بهینه‌سازی‌های ساده اما هوشمندانه، عملکردی بهتر از بسیاری از آن‌ها داشته باشد.

آزمایش‌ها نشان دادند که این مدل می‌تواند صحنه‌هایی مانند پارس کردن سگ یا نواختن یک ساز موسیقی را به‌دقت تشخیص دهد— آن‌هم فقط با شنیدن صدا و دیدن تصویر مرتبط، بدون هیچ کمکی از انسان.

ادسون آراوجو، نویسنده اصلی این تحقیق، می‌گوید: «گاهی وقت‌ها ایده‌هایی که خیلی ساده به نظر می‌رسند یا الگوهای کوچکی که در داده‌ها می‌بینید، اگر درست استفاده شوند، می‌توانند نتایج شگفت‌انگیزی ایجاد کنند

این نتایج نشان می‌دهد که همیشه نیاز به مدل‌های بسیار بزرگ و پیچیده نیست. گاهی با اصلاحات هوشمندانه و دقیق، می‌توان به دقت و عملکردی بالا دست یافت—حتی بهتر از روش‌هایی که منابع و داده‌های بیشتری مصرف می‌کنند.

گام بعدی: ساخت مدلی که هم‌زمان متن، صدا و تصویر را درک می‌کند

پژوهشگران در تلاش‌اند تا این مدل را یک قدم جلوتر ببرند: آن را طوری آموزش دهند که نه‌فقط صدا و تصویر، بلکه متن را نیز درک کند.

این یعنی مدلی بسازند که بتواند هم‌زمان آنچه را که می‌بیند، می‌شنود و می‌خواند، با هم ترکیب و تحلیل کند— درست مثل انسان، که هنگام تماشای یک ویدیو یا مکالمه، صدا، تصویر و کلمات را در یک زمان پردازش می‌کند.

به این نوع سیستم‌ها، مدل‌های زبانی چندوجهی گفته می‌شود؛ یعنی مدل‌هایی که هم متن، هم صدا و هم تصویر را درک می‌کنند و می‌توانند بین آن‌ها ارتباط برقرار کنند.

این مسیر می‌تواند در آینده زمینه‌ساز ساخت ابزارهایی بسیار هوشمندتر برای ترجمه، جست‌وجو، ساخت ویدیو، آموزش، فیلم‌سازی و حتی ربات‌های تعاملی شود.