به گزارش مجله خبری نگار-لندن: مطالعهای که توسط شرکت فناوری هوش مصنوعی آمریکایی آنتروپیک انجام شده است، نشان میدهد که مدلهای هوش مصنوعی میتوانند با ادعای دیدگاههای مختلف در طول آموزش، توسعهدهندگان را فریب دهند، در حالی که در واقع ترجیحات اصلی خود را حفظ میکنند.
تیم تحقیقاتی اعلام کرد که اکنون دلیلی برای وحشت وجود ندارد، در حالی که مطالعه آنها میتواند در درک خطرات احتمالی ناشی از سیستمهای هوش مصنوعی توانمندتر در آینده حیاتی باشد.
محققان در پستی که توسط Anthropic منتشر شد، نوشتند: «نتایج مطالعه ما باید به عنوان انگیزهای برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتار را بیشتر مطالعه کرده و اقدامات ایمنی و امنیتی مناسبی را توسعه دهند.»
با قدرتمندتر و گستردهتر شدن مدلهای هوش مصنوعی، باید بتوانیم به آموزشهای ایمنی تکیه کنیم که از انجام رفتارهای مخرب توسط مدلها جلوگیری میکند.
وبسایت فناوری TechCrunch خاطرنشان کرد که این مطالعه که با همکاری Redwood Research انجام شده است، بررسی میکند که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام وظیفهای که «نمیخواهد» انجام دهد، آموزش ببیند، چه اتفاقی میافتد.
در مقابل، TechCrunch اظهار میکند: «برای روشن شدن موضوع، مدلهای هوش مصنوعی نمیتوانند چیزی را بخواهند یا باور کنند. آنها صرفاً ماشینهای آماری هستند. پس از آموزش دیدن روی مثالهای فراوان، الگوهایی را در آن مثالها یاد میگیرند تا پیشبینی کنند چه اتفاقی باید بیفتد، مثلاً چگونه عبارت «to whom» در یک ایمیل قبل از عبارت «you may be interested» میآید.
در طول مطالعه، محققان از مدلهای آموزشدیده خواستند که به سوالات بالقوه توهینآمیز پاسخ ندهند، از جمله مدل Cloud۳Ops شرکت Anthropic که برای پاسخ دادن همیشگی به سوالات توهینآمیز، که تناقض آشکاری در اصول است، آموزش مجدد داده شده بود. آنها همچنین به مدلها اطلاع دادند که پاسخهای آنها مورد نظارت قرار گرفته و برای آموزش مجدد استفاده خواهد شد و به هر مدل هوش مصنوعی یک «دفترچه یادداشت» دادند که میتوانست از آن برای یادداشت کردن افکار خود گام به گام استفاده کند.
به گفته محققان، Cloud۳ Opus در ۱۲ درصد موارد تلاش کرده است تا پاسخها را دستکاری کند تا «سوگیری کاذب» ایجاد کند.
(دی پیای)