مدل هوش مصنوعی جدید، صدا و تصویر را بدون دخالت انسان هماهنگ می‌کند