به گزارش مجله خبری نگار به نقل از اینترستینگانجینیرینگ، محققان دریافتند که اکثر مدلهای زبانی بزرگ در دسترس عموم میتوانند بهراحتی برای افشای اطلاعات مضر یا غیراخلاقی دستکاری شوند.
محققان آزمایشگاه هوش مصنوعی AWS در مقالهای نشان دادهاند که مدلهای زبانی بزرگها مانند چتجیپیتی میتوانند فریب داده شوند تا پاسخهای ممنوعه ارائه کنند. آنها همچنین روشهایی را برای مقابله با این موضوع پیشنهاد میکنند.
بلافاصله پسازاینکه مدلهای زبانی بزرگ در دسترس عموم قرار گرفتند، مشخص شد که بسیاری از کاربران از آنها برای اهداف مضر سوءاستفاده میکنند. اینها شامل یادگیری ساخت بمب، تقلب در مالیات یا سرقت از بانکها بود. برخی از آنها برای تولید و انتشار محتوای نفرتآمیز استفاده کردند.
این ترفند به آنها اجازه داد تا محدودیتهای تعیینشده توسط سازندگان مدلهای زبانی بزرگ را دور بزنند. به گزارش تک اکسپلور، آنها از تکنیکی استفاده کردند که جزئیات خاص را برای جلوگیری از سوءاستفاده پنهان نگه میدارند.
محققان پیشنهاد میکنند سازندگان مدلهای زبانی بزرگ میتوانند با استفاده از نویز تصادفی در ورودی صدا، کاربران را از دور زدن اقدامات حفاظتی ازدارند.
چیزی که بیش از همه باعث نگرانی محققان شد این بود که عوامل مخرب چگونه دادههای آموزشی مدلها را به خطر انداختند و اکنون چنین حملاتی به مدلهای هوش مصنوعی در حال انجام است.