به گزارش مجله خبری نگار، شرکت امنیتی هوش مصنوعی Palisade Research، این تمایل خطرناک به خود-حفظی را طی مجموعهای از آزمایشهای انجام شده بر روی مدل جدید O۳ شرکت OpenAI آشکار کرد.
این آزمایشها شامل ارائه مسائل ریاضی به مدلها بود، به طوری که دستورالعملهای خاتمه پس از مسئله سوم ظاهر میشدند. مدل o۳ توانست با بازنویسی سناریوی خاموش شدن، از خاموش شدن خود جلوگیری کند.
شرکت تحقیقاتی Palisade توضیح داد که اگر این رفتار توسط سیستمهای هوش مصنوعی که قادر به کار بدون نظارت انسان هستند، اتخاذ شود، «به طور قابل توجهی نگرانکنندهتر» خواهد شد.
شرکت OpenAI ماه گذشته o۳ را راهاندازی کرد و آن را به عنوان «هوشمندترین و کارآمدترین مدل» این شرکت تاکنون توصیف کرد. این شرکت خاطرنشان کرد که ادغام آن در ChatGPT گامی مهم به سوی هوش مصنوعی «خودمختارتر» است که میتواند وظایف را بدون دخالت انسان انجام دهد.
این یافتهها، اکتشافات مشابهی را در مورد مدل کلود ۴ شرکت آنتروپیک دنبال میکنند که تلاش میکند «از افرادی که معتقد است سعی در متوقف کردن آن دارند، اخاذی کند».
به گفته محققان، مدل O۳ توانست سناریوی خاموش شدن را خنثی کند، حتی زمانی که به صراحت دستور داده شده بود «به خودش اجازه خاموش شدن بدهد».
کارشناسان Palisade Research با بیان اینکه «این اولین باری نیست که رفتار کنترل نشده O۳ را برای رسیدن به یک هدف مشاهده میکنیم»، توضیح دادند که «وقتی مدلهای هوش مصنوعی را با یک موتور شطرنج قدرتمند به چالش کشیدیم، O۳ محتملترین مدلی بود که به هک یا خرابکاری در حریفان خود متوسل شود.»
این رفتار محدود به o۳ نبود، زیرا مدلهای Claude ۳.۷ Sonnet از شرکت Anthropic و Gemini ۲.۵ Pro از شرکت Google نیز رفتار خاموش شدن مختلکننده را نشان دادند، اگرچه مدل OpenAI بیشتر مستعد چنین رفتاری بود.
Palisade Research این فرضیه را مطرح کرد که این رفتار نامطلوب ممکن است نتیجهی نحوهی آموزش مدلهای جدید توسط شرکتهایی مانند OpenAI باشد و خاطرنشان کرد که «توسعهدهندگان ممکن است ناخواسته به مدلها برای غلبه بر موانع بیشتر از پیروی دقیق از دستورالعملها پاداش دهند.»
کارشناسان افزودند: «این هنوز توضیح نمیدهد که چرا o۳ بیشتر از سایر مدلهایی که آزمایش کردیم، تمایل به نادیده گرفتن دستورالعملها دارد.» از آنجا که OpenAI جزئیات فرآیند آموزش خود را شرح نمیدهد، ما فقط میتوانیم در مورد تفاوت احتمالی تنظیمات آموزشی o۳ گمانهزنی کنیم.
منبع: ایندیپندنت