کد مطلب: ۸۳۳۹۲۷
|
|
۰۷ خرداد ۱۴۰۴ - ۰۱:۵۸

یک تحول ترسناک| مدل جدید ChatGPT علیه دستورات انسانی شورش می‌کند!

یک تحول ترسناک| مدل جدید ChatGPT علیه دستورات انسانی شورش می‌کند!
محققان هوش مصنوعی هشدار داده‌اند که جدیدترین مدل ChatGPT دستورالعمل‌های اولیه برای خاموش کردن خود را نادیده می‌گیرد و حتی مکانیسم خاموش کردن را برای حفظ عملکرد خود تغییر می‌دهد.

به گزارش مجله خبری نگار، شرکت امنیتی هوش مصنوعی Palisade Research، این تمایل خطرناک به خود-حفظی را طی مجموعه‌ای از آزمایش‌های انجام شده بر روی مدل جدید O۳ شرکت OpenAI آشکار کرد.

این آزمایش‌ها شامل ارائه مسائل ریاضی به مدل‌ها بود، به طوری که دستورالعمل‌های خاتمه پس از مسئله سوم ظاهر می‌شدند. مدل o۳ توانست با بازنویسی سناریوی خاموش شدن، از خاموش شدن خود جلوگیری کند.

شرکت تحقیقاتی Palisade توضیح داد که اگر این رفتار توسط سیستم‌های هوش مصنوعی که قادر به کار بدون نظارت انسان هستند، اتخاذ شود، «به طور قابل توجهی نگران‌کننده‌تر» خواهد شد.

شرکت OpenAI ماه گذشته o۳ را راه‌اندازی کرد و آن را به عنوان «هوشمندترین و کارآمدترین مدل» این شرکت تاکنون توصیف کرد. این شرکت خاطرنشان کرد که ادغام آن در ChatGPT گامی مهم به سوی هوش مصنوعی «خودمختارتر» است که می‌تواند وظایف را بدون دخالت انسان انجام دهد.

این یافته‌ها، اکتشافات مشابهی را در مورد مدل کلود ۴ شرکت آنتروپیک دنبال می‌کنند که تلاش می‌کند «از افرادی که معتقد است سعی در متوقف کردن آن دارند، اخاذی کند».

به گفته محققان، مدل O۳ توانست سناریوی خاموش شدن را خنثی کند، حتی زمانی که به صراحت دستور داده شده بود «به خودش اجازه خاموش شدن بدهد».

کارشناسان Palisade Research با بیان اینکه «این اولین باری نیست که رفتار کنترل نشده O۳ را برای رسیدن به یک هدف مشاهده می‌کنیم»، توضیح دادند که «وقتی مدل‌های هوش مصنوعی را با یک موتور شطرنج قدرتمند به چالش کشیدیم، O۳ محتمل‌ترین مدلی بود که به هک یا خرابکاری در حریفان خود متوسل شود.»

این رفتار محدود به o۳ نبود، زیرا مدل‌های Claude ۳.۷ Sonnet از شرکت Anthropic و Gemini ۲.۵ Pro از شرکت Google نیز رفتار خاموش شدن مختل‌کننده را نشان دادند، اگرچه مدل OpenAI بیشتر مستعد چنین رفتاری بود.

Palisade Research این فرضیه را مطرح کرد که این رفتار نامطلوب ممکن است نتیجه‌ی نحوه‌ی آموزش مدل‌های جدید توسط شرکت‌هایی مانند OpenAI باشد و خاطرنشان کرد که «توسعه‌دهندگان ممکن است ناخواسته به مدل‌ها برای غلبه بر موانع بیشتر از پیروی دقیق از دستورالعمل‌ها پاداش دهند.»

کارشناسان افزودند: «این هنوز توضیح نمی‌دهد که چرا o۳ بیشتر از سایر مدل‌هایی که آزمایش کردیم، تمایل به نادیده گرفتن دستورالعمل‌ها دارد.» از آنجا که OpenAI جزئیات فرآیند آموزش خود را شرح نمی‌دهد، ما فقط می‌توانیم در مورد تفاوت احتمالی تنظیمات آموزشی o۳ گمانه‌زنی کنیم.

منبع: ایندیپندنت

برچسب ها: هوش مصنوعی
ارسال نظرات
قوانین ارسال نظر