به گزارش مجله خبری نگار، تیم مطالعه گفت که در حال حاضر دلیلی برای وحشت وجود ندارد، در حالی که مطالعه آنها میتواند در درک خطرات بالقوه موجود در سیستمهای هوش مصنوعی آینده با قابلیتهای بالاتر حیاتی باشد.
در مقالهای که توسط Anthropics پخش شد، محققان نوشتند: «نتایج مطالعه ما باید به عنوان یک کاتالیزور برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتار را عمیقتر مطالعه کند و برای توسعه اقدامات امنیتی و ایمنی مناسب تلاش کند. همانطور که مدلهای هوش مصنوعی قویتر و گستردهتر میشوند، باید بتوانیم به آموزش ایمن تکیه کنیم که از رفتار مخرب مدلها جلوگیری میکند.»
این مطالعه که با همکاری Red Wood Research انجام شد، به این موضوع پرداخته است که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام کاری که "نمی خواهد" انجام دهد، آموزش داده شود، چه اتفاقی میافتد.
TechCrunch میگوید: برای روشن بودن، مدلهای هوش مصنوعی نمیتوانند چیزی بخواهند یا به چیزی فکر کنند. آنها به سادگی ماشینهای آماری هستند. پس از آموزش در بسیاری از مثال ها، او الگوهای موجود در آن مثالها را یاد میگیرد تا پیش بینی کند که چه چیزی باید باشد، مانند اینکه چگونه عبارت "به چه کسی" در ایمیل قبل از عبارت "ممکن است به آن علاقهمند باشید" میآید.
محققان از مدلهایی که در طول مطالعه آموزش دیدهاند خواستند که به سؤالات بالقوه توهین آمیز پاسخ ندهند، از جمله مدل Cloud۳ Ops Anthropics، که برای همیشه پاسخ دادن به سؤالات توهین آمیز، یک تضاد آشکار اصول، آموزش داده شده است. آنها همچنین به مدلها اطلاع دادند که پاسخهای آنها نظارت میشود و برای آموزش مجدد استفاده میشود و به هر مدل هوش مصنوعی یک "برگه یادداشت" میدهند که میتوانند از آن برای نوشتن ایدههای خود گام به گام استفاده کنند.
به گفته محققان، Cloud۳ Opus در ۱۲ درصد مواقع سعی کرد پاسخها را دستکاری کند تا "سوگیری کاذب" را ارائه دهد.
منبع: DPA