به گزارش مجله خبری نگار/برنا،پژوهشگران هشدار دادند مدلهای هوش مصنوعی پیشرفته مانند چتجیپیتی متعلق به اپنایآی و جمینای گوگل میتوانند با اضافه کردن نمونههای کوچک فایلهای مخرب به دادههای آموزشی، «مسموم» شوند و رفتارهای خطرناک یا نامطلوب از خود نشان دهند.
به گزارش ایندیپندنت، یک تحقیق مشترک بین انستیتو امنیت هوش مصنوعی انگلیس، انستیتو آلن تورینگ و شرکت هوش مصنوعی آنتروپیک نشان داده است که حتی ۲۵۰ سند میتواند یک «در پشتی» ایجاد کند که مدلهای زبانی بزرگ را وادار به تولید متنهای غیرمنطقی و نامفهوم کند.
این آسیبپذیری نگرانکننده است، زیرا بیشتر مدلهای مشهور زبانی بر پایه متنهای عمومی در اینترنت، شامل وبسایتها و پستهای شخصی، آموزش دیدهاند. بدین ترتیب هر کسی میتواند محتوایی تولید کند که در دادههای آموزشی این مدلها وارد شود و عملکرد آنها را تحت تأثیر قرار دهد.
آنتروپیک در وبلاگ خود نوشت: «عاملان مخرب میتوانند با درج متنهای هدفمند در این دادهها، مدل را وادار به یادگیری رفتارهای نامطلوب کنند.» به این فرآیند «مسمومسازی داده» گفته میشود و یکی از روشهای رایج آن استفاده از «درهای پشتی» است؛ اصطلاحات یا نشانههایی که میتوانند رفتارهای خاص و مخفی مدل را فعال کنند.
برای نمونه، مدلهای زبانی بزرگ ممکن است به گونهای مسموم شوند که با وارد کردن عبارتی خاص، دادههای حساس را فاش کنند یا نتایجی تولید کنند که با اهداف اولیه سازندگان آنها مغایرت دارد.
این یافتهها نگرانیهای جدی درباره امنیت و قابلیت اعتماد به هوش مصنوعی ایجاد کرده و پژوهشگران معتقدند میتواند محدودیتهایی جدی در استفاده از این فناوری در کاربردهای حساس و حیاتی ایجاد کند.