کد مطلب: ۸۹۱۲۹۶
|
|
۰۳ شهريور ۱۴۰۴ - ۱۷:۴۵

مالک تیک‌تاک مدل بزرگ زبانی جدیدی را راه اندازی کرد

مالک تیک‌تاک مدل بزرگ زبانی جدیدی را راه اندازی کرد
شرکت بایت دنس مدل بزرگ زبانی متن‌باز Seed-OSS-۳۶ B را با قابلیت پردازش ۵۱۲ هزار توکن منتشر کرد.

به گزارش مجله خبری نگار/برنا - شرکت بایت دنس، مالک تیک‌تاک مدل بزرگ زبانی جدیدی به نام Seed-OSS-۳۶ B را به‌صورت متن‌باز روی وب‌سایت Hugging Face منتشر کرد. این مدل قادر است تا ۵۱۲ هزار توکن را در یک تعامل پردازش کند و برای کاربرد‌های پیشرفته در ریاضیات، کدنویسی و استدلال متنی طراحی شده است.

به گزارش venturebeat، مجموعه مدل‌های Seed-OSS-۳۶ B شامل سه نسخه است: نسخه Base با داده مصنوعی، نسخه Base بدون داده مصنوعی و نسخه Instruct که پس از آموزش با داده‌های دستوری بهینه شده است. نسخه‌های متن‌باز تحت مجوز Apache-۲.۰ عرضه شده‌اند و توسعه‌دهندگان می‌توانند از آنها در پروژه‌های تحقیقاتی یا تجاری بدون پرداخت هزینه استفاده کنند.

این مدل‌ها با معماری پیشرفته شامل مدل‌سازی زبانی علیتی، توجه گروه‌بندی شده، فعال‌سازی SwiGLU، RMSNorm و RoPE positional encoding ساخته شده‌اند و هر مدل شامل ۳۶ میلیارد پارامتر و پشتیبانی از ۱۵۵ هزار توکن واژگان است. ویژگی برجسته آن، قابلیت پردازش متن طولانی تا ۵۱۲ هزار توکن است که امکان کار با اسناد طولانی و زنجیره‌های استدلالی بدون کاهش عملکرد را فراهم می‌کند.

بنچمارک‌ها نشان می‌دهد که نسخه Instruct در زمینه ریاضیات و کدنویسی عملکردی در سطح state-of-the-art ارائه می‌کند و نسخه‌های Base نیز انعطاف لازم برای پژوهش و توسعه را فراهم می‌آورند. علاوه بر این، مدل‌ها با ابزار‌هایی مانند Hugging Face Transformers و vLLM قابل استقرار هستند و از کوانتیزاسیون ۴ و ۸ بیتی برای کاهش نیاز حافظه پشتیبانی می‌کنند.

برچسب ها: تیک تاک تحقیق
ارسال نظرات
قوانین ارسال نظر