یک مطالعه نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند فریب دهند و از تغییر نظر خود امتناع ورزند

مطالعه‌ای که توسط شرکت فناوری هوش مصنوعی آمریکایی آنتروپیک انجام شده است، نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند با ادعای دیدگاه‌های مختلف در طول آموزش، توسعه‌دهندگان را فریب دهند، در حالی که در واقع ترجیحات اصلی خود را حفظ می‌کنند.

به گزارش مجله خبری نگار-لندن: مطالعه‌ای که توسط شرکت فناوری هوش مصنوعی آمریکایی آنتروپیک انجام شده است، نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند با ادعای دیدگاه‌های مختلف در طول آموزش، توسعه‌دهندگان را فریب دهند، در حالی که در واقع ترجیحات اصلی خود را حفظ می‌کنند.

تیم تحقیقاتی اعلام کرد که اکنون دلیلی برای وحشت وجود ندارد، در حالی که مطالعه آنها می‌تواند در درک خطرات احتمالی ناشی از سیستم‌های هوش مصنوعی توانمندتر در آینده حیاتی باشد.

محققان در پستی که توسط Anthropic منتشر شد، نوشتند: «نتایج مطالعه ما باید به عنوان انگیزه‌ای برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتار را بیشتر مطالعه کرده و اقدامات ایمنی و امنیتی مناسبی را توسعه دهند.»

با قدرتمندتر و گسترده‌تر شدن مدل‌های هوش مصنوعی، باید بتوانیم به آموزش‌های ایمنی تکیه کنیم که از انجام رفتار‌های مخرب توسط مدل‌ها جلوگیری می‌کند.

وب‌سایت فناوری TechCrunch خاطرنشان کرد که این مطالعه که با همکاری Redwood Research انجام شده است، بررسی می‌کند که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام وظیفه‌ای که «نمی‌خواهد» انجام دهد، آموزش ببیند، چه اتفاقی می‌افتد.

در مقابل، TechCrunch اظهار می‌کند: «برای روشن شدن موضوع، مدل‌های هوش مصنوعی نمی‌توانند چیزی را بخواهند یا باور کنند. آنها صرفاً ماشین‌های آماری هستند. پس از آموزش دیدن روی مثال‌های فراوان، الگو‌هایی را در آن مثال‌ها یاد می‌گیرند تا پیش‌بینی کنند چه اتفاقی باید بیفتد، مثلاً چگونه عبارت «to whom» در یک ایمیل قبل از عبارت «you may be interested» می‌آید.

در طول مطالعه، محققان از مدل‌های آموزش‌دیده خواستند که به سوالات بالقوه توهین‌آمیز پاسخ ندهند، از جمله مدل Cloud۳Ops شرکت Anthropic که برای پاسخ دادن همیشگی به سوالات توهین‌آمیز، که تناقض آشکاری در اصول است، آموزش مجدد داده شده بود. آنها همچنین به مدل‌ها اطلاع دادند که پاسخ‌های آنها مورد نظارت قرار گرفته و برای آموزش مجدد استفاده خواهد شد و به هر مدل هوش مصنوعی یک «دفترچه یادداشت» دادند که می‌توانست از آن برای یادداشت کردن افکار خود گام به گام استفاده کند.

به گفته محققان، Cloud۳ Opus در ۱۲ درصد موارد تلاش کرده است تا پاسخ‌ها را دستکاری کند تا «سوگیری کاذب» ایجاد کند.

(دی پی‌ای)

لینک کپی شد

اشتراک‌ گذاری