به گزارش مجله خبری نگار/برنا - مدلهای زبانی بزرگ، از جمله GPT-۵ و چتجیپیتی، که طی چند سال گذشته به ابزارهای کلیدی تعامل انسان با ماشین تبدیل شدهاند، همچنان با پدیدهای به نام «هذیانگویی» دستوپنجه نرم میکنند. هذیانگویی به وضعیتی اطلاق میشود که مدل پاسخهایی قابل اعتماد، اما نادرست تولید میکند و در نتیجه حتی کاربران حرفهای نیز در استفاده از این سیستمها با چالش مواجه میشوند.
اخیرا پژوهشگران اپنایآی در مقالهای تازه، دلایل این هذیانها را بررسی کرده و نقش انگیزههای موجود در فرآیند ارزیابی مدلها را تحلیل کردهاند. این تحقیق همچنین پیشنهادهایی برای کاهش خطا و افزایش اطمینان کاربران ارائه میدهد.
اپنایآی هذیانگویی را به عنوان «بیانهای قابل باور، اما نادرست توسط مدلهای زبانی» تعریف میکند. با وجود پیشرفتهای گسترده در معماری مدلها و حجم دادههای آموزشی، هذیانگویی همچنان یک چالش اساسی است که بهطور کامل قابل حذف نیست.
محققان برای نمونه، یک چتبات را درباره عنوان رساله دکترای یکی از نویسندگان مقاله مورد آزمایش قرار دادند و سه پاسخ متفاوت دریافت کردند، که هیچکدام صحیح نبود. حتی وقتی سؤال درباره تاریخ تولد همان شخص پرسیده شد، باز هم سه پاسخ نادرست ارائه شد. این نمونهها نشان میدهد که مدلها گاه با اعتماد به نفس بالا اطلاعات غلط تولید میکنند، که میتواند برای کاربران گمراهکننده باشد.
یکی از دلایل اصلی این پدیده، نحوه آموزش مدلهای زبانی بزرگ است. مدلها عمدتاً برای پیشبینی کلمه بعدی در جمله آموزش داده میشوند، بدون اینکه دادهها برچسب «درست» یا «نادرست» داشته باشند. در نتیجه، مدلها الگوهای زبان و توزیع آماری کلمات را یاد میگیرند، اما توانایی تشخیص حقیقت از دروغ را ندارند.
اپنایآی توضیح داد خطاهای ساده املایی یا نگارشی با افزایش مقیاس مدلها کاهش مییابند، اما اطلاعات کمتکرار، مانند تاریخ تولد یک فرد یا جزئیات دقیق، از الگوهای آماری قابل پیشبینی نیستند و باعث هذیانگویی میشوند.
محققان اپنایآی معتقدند بخشی از مشکل هذیانگویی ناشی از نحوه ارزیابی مدلها است. ارزیابیهای فعلی عمدتاً بر اساس دقت سنجیده میشوند؛ یعنی مدلها تنها برای پاسخهای درست امتیاز دریافت میکنند و پاسخ اشتباه بهطور مستقیم جریمه نمیشود.
این روش، انگیزهای برای مدلها ایجاد میکند که حتی زمانی که اطلاعات کافی ندارند، پاسخ دهند تا امتیاز از دست نرود. اپنایآی این پدیده را با آزمونهای چندگزینهای مقایسه میکند: در این آزمونها، خالی گذاشتن جواب مساوی با صفر امتیاز است و حدس زدن ممکن است شانس موفقیت را افزایش دهد.
اپنایآی پیشنهاد میکند که معیارهای ارزیابی مدلها باید بازنگری شوند تا انگیزه حدس زدن کاهش یابد و مدلها ترغیب شوند عدم قطعیت خود را بیان کنند.
اعمال جریمه برای پاسخهای نادرست با اعتماد به نفس بالا: پاسخهایی که با اطمینان زیاد ارائه میشوند و نادرست هستند، باید جریمه بیشتری دریافت کنند.
امتیازدهی برای بیان عدم قطعیت: مدلهایی که به درستی بیان میکنند که نمیدانند یا مطمئن نیستند، باید امتیاز مثبت دریافت کنند.
بازنگری گسترده در ارزیابیها: اصلاح چند تست محدود کافی نیست. معیارهای اصلی ارزیابی باید به گونهای طراحی شوند که حدس زدن را بیفایده یا حتی مضر کنند.
این اقدامات نه تنها دقت مدل را افزایش میدهند بلکه میتوانند اعتماد کاربران به مدلهای زبانی بزرگ را نیز بهبود ببخشند.
با وجود این اقدامات، هذیانگویی همچنان یک چالش اساسی باقی میماند. مدلها همواره با دادههای ناقص یا حقایق کمتکرار مواجه هستند و نمیتوان انتظار داشت همه خطاها بهطور کامل حذف شوند.
علاوه بر این، بازنگری معیارهای ارزیابی نیازمند تلاش تحقیقاتی و توسعهای گسترده است. شرکتهایی مانند اپنایآی همواره در حال بهبود معماری مدلها، جمعآوری دادههای دقیقتر و طراحی معیارهای ارزیابی پیشرفته هستند، اما هیچ رویکردی تضمین نمیکند که هذیانگویی بهطور کامل از بین برود.
هذیانگویی در مدلهای زبانی بزرگ میتواند در حوزههایی که دقت اطلاعات حیاتی است، از جمله پزشکی، حقوق، مشاورههای علمی و تصمیمگیریهای اقتصادی، تبعات جدی داشته باشد. حتی اطلاعات نادرست با اعتماد به نفس بالا میتواند باعث تصمیمگیری غلط شود و کاربران را گمراه کند.
به همین دلیل، اصلاح معیارهای ارزیابی و ایجاد انگیزه مناسب برای کاهش هذیانگویی، نه تنها یک مسئله فنی، بلکه یک ضرورت اخلاقی و عملی برای توسعهدهندگان هوش مصنوعی است.
مطالعه اپنایآی نشان میدهد که هذیانگویی نتیجه ترکیبی از نحوه آموزش مدلها و انگیزههای موجود در ارزیابیها است.
آموزش براساس پیشبینی کلمه بعدی بدون برچسب درست یا غلط باعث تولید اطلاعات نادرست میشود.
ارزیابی مبتنی بر دقت مدلها را تشویق میکند حتی زمانی که اطلاعات کافی ندارند، حدس بزنند.
اصلاح معیارهای ارزیابی، جریمه برای خطاهای با اعتماد به نفس بالا و امتیازدهی به بیان عدم قطعیت، راهکار پیشنهادی برای کاهش هذیانگویی است.
این اقدامات میتوانند گامی مهم در بهبود دقت و اعتماد به مدلهای زبانی بزرگ باشند، هرچند هذیانگویی همچنان یک چالش ماندگار و نیازمند تحقیقات مستمر است.