به گزارش مجله خبری نگار، شرکت آنتروپیک (Anthropic) از راهاندازی یک ویژگی جدید در نسخه چت مدلهای Claude Opus ۴ و ۴.۱ خبر داد که به شبکه عصبی اجازه میدهد در صورت طولانی شدن رفتار توهینآمیز یا نادرست از سوی کاربر، گفتوگو را پایان دهد. این بیانیه در وبسایت توسعهدهندگان منتشر شده است.
این نوآوری به عنوان بخشی از برنامه رفاه هوش مصنوعی، با هدف تضمین «رفاه» هوش مصنوعی، اجرا شد. آزمایشهای اولیه نشان داد که کلود اوپوس ۴ اکراه قابل توجهی در پاسخ به درخواستهای مخرب و واکنش «استرسزا» به ارتباطات نادرست نشان میدهد. در حضور ابزار خاتمه گفتوگو، مدل به طور فعال از آن استفاده کرد.
در شرایطی که کاربر به هوش مصنوعی توهین میکند، سیستم به کاربر اطلاع میدهد که مکالمه پایان یافته است و پس از آن گزینههایی برای شروع یک چت جدید، ارسال بازخورد به توسعهدهندگان یا ویرایش پیامهای قبلی برای شروع مجدد گفتوگو در دسترس خواهد بود. با این حال، این نوآوری در مورد API مدل اعمال نمیشود.
توسعهدهندگان تأکید کردند که این عملکرد فقط در موارد شدید کار میکند و سیستم ابتدا سعی میکند تعامل را به یک کانال سازنده منتقل کند. اکثر کاربران متوجه تغییرات نخواهند شد.
آنتروپیک همچنین خاطرنشان کرد که اگرچه سوالات مربوط به وضعیت اخلاقی بالقوه کلود و سایر مدلهای زبانی همچنان موضوع تحقیق در این مرحله است، اما این شرکت آنها را جدی میگیرد و ابزارهایی را برای بهبود «رفاه» مدلها فراهم میکند.