به گزارش مجله خبری نگار،مدلهای هوش مصنوعی با اندازه کوچکتر میتوانند منجر به اجرای دستیارهای زبان شبیه ChatGPT به صورت محلی در دستگاههایی مانند رایانههای شخصی و تلفنهای هوشمند شوند. این بخشی از خانواده جدیدی از مدلهای زبانی به نام «مدل زبان بزرگ هوش مصنوعی متا» یا به اختصار LLAMA است.
مجموعه مدلهای زبان LLaMA از ۷ میلیارد تا ۶۵ میلیارد پارامتر در اندازه است. در مقایسه، مدل GPT-۳ OpenAI (مدل اساسی پشت ChatGPT) دارای ۱۷۵ میلیارد پارامتر است.
متا مدلهای LLaMA خود را با استفاده از مجموعه دادههای در دسترس عموم، مانند Common Crawl، Wikipedia، و C۴ آموزش داد، که به این معنی است که شرکت میتواند به طور بالقوه مدل را به صورت اوپن سورس منتشر کند. این یک پیشرفت چشمگیر جدید در صنعتی است که تا به حال، بازیگران بزرگ فناوری در مسابقه هوش مصنوعی قدرتمندترین فناوری خود را برای خود نگه داشته اند.
گیوم لمپل عضو پروژه توییت کرد: برخلاف Chinchilla، PalM، یا GPT-۳، ما فقط از مجموعه دادههایی که به صورت عمومی در دسترس هستند استفاده میکنیم و کارمان را با منبع باز و به صورت قابل تکرار سازگار میکنیم، در حالی که بیشتر مدلهای موجود بر دادههایی تکیه میکنند که در دسترس عموم یا غیرمستند نیستند.
در حالی که مدل برتر LLaMA (LLaMA-۶۵B، با ۶۵ میلیارد پارامتر)، طبق گزارشها میتواند عملکرد بهتری از GPT-۳ بر روی یک GPU واحد اجرا میشود، داشته باشد، برخلاف الزامات مرکز داده (Data Center) برای مشتقات GPT-۳، مدل LLaMA-۱۳B دری را برای عملکرد مشابه ChatGPT بر روی سخت افزار در سطح مصرف کننده مانند موبایلها و تبلتها در آینده نزدیک باز میکند.
اندازه پارامتر در هوش مصنوعی بسیار مهم است. پارامتر متغیری است که یک مدل یادگیری ماشینی از آن برای پیشبینی یا طبقهبندی بر اساس دادههای ورودی استفاده میکند.
تعداد پارامترها در یک مدل زبان یک عامل کلیدی در عملکرد آن است و مدلهای بزرگتر با تعداد زیادی پارامتر معمولاً قادر به انجام وظایف پیچیدهتر و تولید خروجی منسجمتر هستند.
با این حال، پارامترهای بیشتر فضای بیشتری را اشغال میکنند و برای اجرا به منابع محاسباتی سخت افزاری بیشتری نیاز دارند؛ بنابراین اگر یک مدل بتواند به نتایج مشابه مدل دیگر با پارامترهای کمتر دست، نشان دهنده افزایش قابل توجهی در کارایی است.
سایمون ویلیسون محقق مستقل هوش مصنوعی در Mastodon نوشت: من اکنون به این فکر میکنم که ظرف یک یا دو سال آینده بتوانیم مدلهای زبانی را با بخش قابل توجهی از قابلیتهای ChatGPT روی تلفنهای همراه و لپتاپ خودمان اجرا کنیم.
در حال حاضر، یک نسخه کوچک شده از LLaMA در GitHub در دسترس است. برای دریافت کد و دادههای آموزشی «یادگرفتهشده» در یک شبکه عصبی، متا فرمی را برای درخواست دسترسی در آنجا قرار داده است. متا در حال حاضر برنامهای برای عرضه گستردهتر این مدل اعلام نکرده است.