هوش مصنوعی پیشتاز در اختراع زبان جدید

روز جمعه، متا یک مدل زبان بزرگ جدید با هوش مصنوعی (LLM) به نام LLaMA-۱۳B را معرفی کرد که ادعا می‌کند علیرغم اینکه ۱۰ برابر کوچک‌تر است، می‌تواند از مدل GPT-۳ OpenAI بهتر عمل کند.

به گزارش مجله خبری نگار،مدل‌های هوش مصنوعی با اندازه کوچک‌تر می‌توانند منجر به اجرای دستیار‌های زبان شبیه ChatGPT به صورت محلی در دستگاه‌هایی مانند رایانه‌های شخصی و تلفن‌های هوشمند شوند. این بخشی از خانواده جدیدی از مدل‌های زبانی به نام «مدل زبان بزرگ هوش مصنوعی متا» یا به اختصار LLAMA است.

مجموعه مدل‌های زبان LLaMA از ۷ میلیارد تا ۶۵ میلیارد پارامتر در اندازه است. در مقایسه، مدل GPT-۳ OpenAI (مدل اساسی پشت ChatGPT) دارای ۱۷۵ میلیارد پارامتر است.

متا مدل‌های LLaMA خود را با استفاده از مجموعه داده‌های در دسترس عموم، مانند Common Crawl، Wikipedia، و C۴ آموزش داد، که به این معنی است که شرکت می‌تواند به طور بالقوه مدل را به صورت اوپن سورس منتشر کند. این یک پیشرفت چشمگیر جدید در صنعتی است که تا به حال، بازیگران بزرگ فناوری در مسابقه هوش مصنوعی قدرتمندترین فناوری خود را برای خود نگه داشته اند.

گیوم لمپل عضو پروژه توییت کرد: برخلاف Chinchilla، PalM، یا GPT-۳، ما فقط از مجموعه داده‌هایی که به صورت عمومی در دسترس هستند استفاده می‌کنیم و کارمان را با منبع باز و به صورت قابل تکرار سازگار می‌کنیم، در حالی که بیشتر مدل‌های موجود بر داده‌هایی تکیه می‌کنند که در دسترس عموم یا غیرمستند نیستند.

در حالی که مدل برتر LLaMA (LLaMA-۶۵B، با ۶۵ میلیارد پارامتر)، طبق گزارش‌ها می‌تواند عملکرد بهتری از GPT-۳ بر روی یک GPU واحد اجرا می‌شود، داشته باشد، برخلاف الزامات مرکز داده (Data Center) برای مشتقات GPT-۳، مدل LLaMA-۱۳B دری را برای عملکرد مشابه ChatGPT بر روی سخت افزار در سطح مصرف کننده مانند موبایل‌ها و تبلت‌ها در آینده نزدیک باز می‌کند.

اندازه پارامتر در هوش مصنوعی بسیار مهم است. پارامتر متغیری است که یک مدل یادگیری ماشینی از آن برای پیش‌بینی یا طبقه‌بندی بر اساس داده‌های ورودی استفاده می‌کند.

تعداد پارامتر‌ها در یک مدل زبان یک عامل کلیدی در عملکرد آن است و مدل‌های بزرگتر با تعداد زیادی پارامتر معمولاً قادر به انجام وظایف پیچیده‌تر و تولید خروجی منسجم‌تر هستند.

با این حال، پارامتر‌های بیشتر فضای بیشتری را اشغال می‌کنند و برای اجرا به منابع محاسباتی سخت افزاری بیشتری نیاز دارند؛ بنابراین اگر یک مدل بتواند به نتایج مشابه مدل دیگر با پارامتر‌های کمتر دست، نشان دهنده افزایش قابل توجهی در کارایی است.

سایمون ویلیسون محقق مستقل هوش مصنوعی در Mastodon نوشت: من اکنون به این فکر می‌کنم که ظرف یک یا دو سال آینده بتوانیم مدل‌های زبانی را با بخش قابل توجهی از قابلیت‌های ChatGPT روی تلفن‌های همراه و لپ‌تاپ خودمان اجرا کنیم.

در حال حاضر، یک نسخه کوچک شده از LLaMA در GitHub در دسترس است. برای دریافت کد و داده‌های آموزشی «یادگرفته‌شده» در یک شبکه عصبی، متا فرمی را برای درخواست دسترسی در آنجا قرار داده است. متا در حال حاضر برنامه‌ای برای عرضه گسترده‌تر این مدل اعلام نکرده است.

لینک کپی شد

اشتراک‌ گذاری