کد مطلب: ۸۹۹۶۶۴
|
|
۱۷ شهريور ۱۴۰۴ - ۱۸:۵۷

دست‌وپنجه نرم کردن هوش مصنوعی با «هذیان‌گویی»

دست‌وپنجه نرم کردن هوش مصنوعی با «هذیان‌گویی»
با وجود پیشرفت‌های چشمگیر در هوش مصنوعی، مدل‌های زبانی بزرگ همچنان گاهی پاسخ‌هایی تولید می‌کنند که درست به نظر می‌رسند، اما در واقع نادرست هستند.

به گزارش مجله خبری نگار/برنا - مدل‌های زبانی بزرگ، از جمله GPT-۵ و چت‌جی‌پی‌تی، که طی چند سال گذشته به ابزار‌های کلیدی تعامل انسان با ماشین تبدیل شده‌اند، همچنان با پدیده‌ای به نام «هذیان‌گویی» دست‌وپنجه نرم می‌کنند. هذیان‌گویی به وضعیتی اطلاق می‌شود که مدل پاسخ‌هایی قابل اعتماد، اما نادرست تولید می‌کند و در نتیجه حتی کاربران حرفه‌ای نیز در استفاده از این سیستم‌ها با چالش مواجه می‌شوند.

اخیرا پژوهشگران اپن‌ای‌آی در مقاله‌ای تازه، دلایل این هذیان‌ها را بررسی کرده و نقش انگیزه‌های موجود در فرآیند ارزیابی مدل‌ها را تحلیل کرده‌اند. این تحقیق همچنین پیشنهاد‌هایی برای کاهش خطا و افزایش اطمینان کاربران ارائه می‌دهد.

اپن‌ای‌آی هذیان‌گویی را به عنوان «بیان‌های قابل باور، اما نادرست توسط مدل‌های زبانی» تعریف می‌کند. با وجود پیشرفت‌های گسترده در معماری مدل‌ها و حجم داده‌های آموزشی، هذیان‌گویی همچنان یک چالش اساسی است که به‌طور کامل قابل حذف نیست.

محققان برای نمونه، یک چت‌بات را درباره عنوان رساله دکترای یکی از نویسندگان مقاله مورد آزمایش قرار دادند و سه پاسخ متفاوت دریافت کردند، که هیچ‌کدام صحیح نبود. حتی وقتی سؤال درباره تاریخ تولد همان شخص پرسیده شد، باز هم سه پاسخ نادرست ارائه شد. این نمونه‌ها نشان می‌دهد که مدل‌ها گاه با اعتماد به نفس بالا اطلاعات غلط تولید می‌کنند، که می‌تواند برای کاربران گمراه‌کننده باشد.

ریشه‌های هذیان‌گویی

یکی از دلایل اصلی این پدیده، نحوه آموزش مدل‌های زبانی بزرگ است. مدل‌ها عمدتاً برای پیش‌بینی کلمه بعدی در جمله آموزش داده می‌شوند، بدون اینکه داده‌ها برچسب «درست» یا «نادرست» داشته باشند. در نتیجه، مدل‌ها الگو‌های زبان و توزیع آماری کلمات را یاد می‌گیرند، اما توانایی تشخیص حقیقت از دروغ را ندارند.

اپن‌ای‌آی توضیح داد خطا‌های ساده املایی یا نگارشی با افزایش مقیاس مدل‌ها کاهش می‌یابند، اما اطلاعات کم‌تکرار، مانند تاریخ تولد یک فرد یا جزئیات دقیق، از الگو‌های آماری قابل پیش‌بینی نیستند و باعث هذیان‌گویی می‌شوند.

نقش ارزیابی و انگیزه‌ها

محققان اپن‌ای‌آی معتقدند بخشی از مشکل هذیان‌گویی ناشی از نحوه ارزیابی مدل‌ها است. ارزیابی‌های فعلی عمدتاً بر اساس دقت سنجیده می‌شوند؛ یعنی مدل‌ها تنها برای پاسخ‌های درست امتیاز دریافت می‌کنند و پاسخ اشتباه به‌طور مستقیم جریمه نمی‌شود.

این روش، انگیزه‌ای برای مدل‌ها ایجاد می‌کند که حتی زمانی که اطلاعات کافی ندارند، پاسخ دهند تا امتیاز از دست نرود. اپن‌ای‌آی این پدیده را با آزمون‌های چندگزینه‌ای مقایسه می‌کند: در این آزمون‌ها، خالی گذاشتن جواب مساوی با صفر امتیاز است و حدس زدن ممکن است شانس موفقیت را افزایش دهد.

راهکار‌های پیشنهادی اپن‌ای‌آی

اپن‌ای‌آی پیشنهاد می‌کند که معیار‌های ارزیابی مدل‌ها باید بازنگری شوند تا انگیزه حدس زدن کاهش یابد و مدل‌ها ترغیب شوند عدم قطعیت خود را بیان کنند.

راهکار‌های اصلی شامل:

اعمال جریمه برای پاسخ‌های نادرست با اعتماد به نفس بالا: پاسخ‌هایی که با اطمینان زیاد ارائه می‌شوند و نادرست هستند، باید جریمه بیشتری دریافت کنند.

امتیازدهی برای بیان عدم قطعیت: مدل‌هایی که به درستی بیان می‌کنند که نمی‌دانند یا مطمئن نیستند، باید امتیاز مثبت دریافت کنند.

بازنگری گسترده در ارزیابی‌ها: اصلاح چند تست محدود کافی نیست. معیار‌های اصلی ارزیابی باید به گونه‌ای طراحی شوند که حدس زدن را بی‌فایده یا حتی مضر کنند.

این اقدامات نه تنها دقت مدل را افزایش می‌دهند بلکه می‌توانند اعتماد کاربران به مدل‌های زبانی بزرگ را نیز بهبود ببخشند.

چالش‌ها و محدودیت‌ها

با وجود این اقدامات، هذیان‌گویی همچنان یک چالش اساسی باقی می‌ماند. مدل‌ها همواره با داده‌های ناقص یا حقایق کم‌تکرار مواجه هستند و نمی‌توان انتظار داشت همه خطا‌ها به‌طور کامل حذف شوند.

علاوه بر این، بازنگری معیار‌های ارزیابی نیازمند تلاش تحقیقاتی و توسعه‌ای گسترده است. شرکت‌هایی مانند اپن‌ای‌آی همواره در حال بهبود معماری مدل‌ها، جمع‌آوری داده‌های دقیق‌تر و طراحی معیار‌های ارزیابی پیشرفته هستند، اما هیچ رویکردی تضمین نمی‌کند که هذیان‌گویی به‌طور کامل از بین برود.

اهمیت در کاربرد‌های واقعی

هذیان‌گویی در مدل‌های زبانی بزرگ می‌تواند در حوزه‌هایی که دقت اطلاعات حیاتی است، از جمله پزشکی، حقوق، مشاوره‌های علمی و تصمیم‌گیری‌های اقتصادی، تبعات جدی داشته باشد. حتی اطلاعات نادرست با اعتماد به نفس بالا می‌تواند باعث تصمیم‌گیری غلط شود و کاربران را گمراه کند.

به همین دلیل، اصلاح معیار‌های ارزیابی و ایجاد انگیزه مناسب برای کاهش هذیان‌گویی، نه تنها یک مسئله فنی، بلکه یک ضرورت اخلاقی و عملی برای توسعه‌دهندگان هوش مصنوعی است.

مطالعه اپن‌ای‌آی نشان می‌دهد که هذیان‌گویی نتیجه ترکیبی از نحوه آموزش مدل‌ها و انگیزه‌های موجود در ارزیابی‌ها است.

آموزش براساس پیش‌بینی کلمه بعدی بدون برچسب درست یا غلط باعث تولید اطلاعات نادرست می‌شود.

ارزیابی مبتنی بر دقت مدل‌ها را تشویق می‌کند حتی زمانی که اطلاعات کافی ندارند، حدس بزنند.

اصلاح معیار‌های ارزیابی، جریمه برای خطا‌های با اعتماد به نفس بالا و امتیازدهی به بیان عدم قطعیت، راهکار پیشنهادی برای کاهش هذیان‌گویی است.

این اقدامات می‌توانند گامی مهم در بهبود دقت و اعتماد به مدل‌های زبانی بزرگ باشند، هرچند هذیان‌گویی همچنان یک چالش ماندگار و نیازمند تحقیقات مستمر است.

ارسال نظرات
قوانین ارسال نظر