کد مطلب: ۷۴۱۱۷۰
|
|

مطالعه: هوش مصنوعی قادر به فریب و پایبندی به دیدگاه خود است

مطالعه: هوش مصنوعی قادر به فریب و پایبندی به دیدگاه خود است
مطالعه‌ای که توسط شرکت فناوری هوش مصنوعی آمریکایی "Anthropics" انجام شد نشان داد که مدل‌های هوش مصنوعی می‌توانند توسعه دهندگان را فریب دهند و در طول آموزش آنها دیدگاه‌های متفاوتی ارائه دهند.

به گزارش مجله خبری نگار، تیم مطالعه گفت که در حال حاضر دلیلی برای وحشت وجود ندارد، در حالی که مطالعه آنها می‌تواند در درک خطرات بالقوه موجود در سیستم‌های هوش مصنوعی آینده با قابلیت‌های بالاتر حیاتی باشد.

در مقاله‌ای که توسط Anthropics پخش شد، محققان نوشتند: «نتایج مطالعه ما باید به عنوان یک کاتالیزور برای جامعه تحقیقاتی هوش مصنوعی در نظر گرفته شود تا این رفتار را عمیق‌تر مطالعه کند و برای توسعه اقدامات امنیتی و ایمنی مناسب تلاش کند. همانطور که مدل‌های هوش مصنوعی قوی‌تر و گسترده‌تر می‌شوند، باید بتوانیم به آموزش ایمن تکیه کنیم که از رفتار مخرب مدل‌ها جلوگیری می‌کند.»

این مطالعه که با همکاری Red Wood Research انجام شد، به این موضوع پرداخته است که اگر یک سیستم هوش مصنوعی قدرتمند برای انجام کاری که "نمی خواهد" انجام دهد، آموزش داده شود، چه اتفاقی می‌افتد.

TechCrunch می‌گوید: برای روشن بودن، مدل‌های هوش مصنوعی نمی‌توانند چیزی بخواهند یا به چیزی فکر کنند. آنها به سادگی ماشین‌های آماری هستند. پس از آموزش در بسیاری از مثال ها، او الگو‌های موجود در آن مثال‌ها را یاد می‌گیرد تا پیش بینی کند که چه چیزی باید باشد، مانند اینکه چگونه عبارت "به چه کسی" در ایمیل قبل از عبارت "ممکن است به آن علاقه‌مند باشید" می‌آید.

محققان از مدل‌هایی که در طول مطالعه آموزش دیده‌اند خواستند که به سؤالات بالقوه توهین آمیز پاسخ ندهند، از جمله مدل Cloud۳ Ops Anthropics، که برای همیشه پاسخ دادن به سؤالات توهین آمیز، یک تضاد آشکار اصول، آموزش داده شده است. آنها همچنین به مدل‌ها اطلاع دادند که پاسخ‌های آنها نظارت می‌شود و برای آموزش مجدد استفاده می‌شود و به هر مدل هوش مصنوعی یک "برگه یادداشت" می‌دهند که می‌توانند از آن برای نوشتن ایده‌های خود گام به گام استفاده کنند.

به گفته محققان، Cloud۳ Opus در ۱۲ درصد مواقع سعی کرد پاسخ‌ها را دستکاری کند تا "سوگیری کاذب" را ارائه دهد.

منبع: DPA

برچسب ها: هوش مصنوعی
ارسال نظرات
قوانین ارسال نظر