گوگل از مدل هوش مصنوعی سبک و آفلاین خود با نام Gemma 3n رونمایی کرد؛ این مدل میتواند تنها با ۲ گیگابایت رم روی دستگاه اجرا شود و بدون نیاز به اینترنت، ورودیهای صوت، تصویر، ویدیو و متن را پردازش کند.
Gemma 3n؛ مدل سبکوزن و قدرتمند هوش مصنوعی
گوگل در ادامه توسعه مدلهای هوش مصنوعی قابل اجرا روی دستگاه (on-device)، مدل Gemma 3n را معرفی کرده است. این مدل بر پایه معماری جدید MatFormer طراحی شده که مانند عروسکهای روسی، مدلهای کوچکتر را در دل مدلهای بزرگتر جای میدهد.
دو نسخه برای اجرا روی دستگاههای ضعیف
Gemma 3n در دو نسخه منتشر شده است: نسخه E2B برای اجرا روی دستگاههایی با ۲ گیگابایت رم و نسخه E4B برای دستگاههایی با حدود ۳ گیگابایت رم. با استفاده از تکنیکهایی مانند Per-Layer Embeddings و KV Cache Sharing، این مدلها میتوانند عملکردی مشابه مدلهای بزرگتر ارائه دهند، بدون بار محاسباتی سنگین.
قابلیتهای چندرسانهای قدرتمند
Gemma 3n از یک audio encoder پیشرفته بر پایه Universal Speech Model بهره میبرد که امکان تبدیل گفتار به متن و ترجمه بین زبانها را فراهم میکند. در بخش تصویری نیز از مدل MobileNet-V5 استفاده شده که میتواند ویدیو را تا ۶۰fps پردازش کند؛ مناسب برای کاربردهای بلادرنگ روی گوشیهای هوشمند.
پشتیبانی از ابزارهای متنباز و اجرای آفلاین
این مدل بهصورت کامل با ابزارهایی مانند Hugging Face Transformers، Ollama و llama.cpp سازگار است و میتواند بدون اتصال به cloud اجرا شود. همچنین، از بیش از ۱۴۰ زبان پشتیبانی میکند و قادر است ورودیهای چندرسانهای را به ۳۵ زبان پردازش کند.
تحلیل iTrends
معرفی Gemma 3n نشان میدهد گوگل تمرکز خود را به اجرای هوش مصنوعی روی دستگاههای شخصی معطوف کرده است. این مدل با استفاده از معماری نوآورانه و تکنیکهای صرفهجویانه در حافظه، قابلیت اجرای پیشرفتهترین مدلهای چندرسانهای را روی گوشیهای اقتصادی فراهم کرده است. اجرای آفلاین، پشتیبانی از چند زبان، و سازگاری با ابزارهای متنباز، Gemma 3n را به انتخابی جذاب برای توسعهدهندگان، شرکتها، و کاربرانی تبدیل میکند که به حریم خصوصی و بهرهوری بالا اهمیت میدهند.