مدل‌های بزرگ هوش مصنوعی میتوانند داده مخرب داشته باشند!

پژوهشگران هشدار می‌دهند که مدل‌های هوش مصنوعی بزرگ، از جمله چت‌جی‌پی‌تی و جمینای می‌توانند با داده‌های مخرب مسموم شوند و رفتار‌های نامطلوب یا اطلاعات حساس را فاش کنند.

به گزارش مجله خبری نگار/برنا،پژوهشگران هشدار دادند مدل‌های هوش مصنوعی پیشرفته مانند چت‌جی‌پی‌تی متعلق به اپن‌ای‌آی و جمینای گوگل می‌توانند با اضافه کردن نمونه‌های کوچک فایل‌های مخرب به داده‌های آموزشی، «مسموم» شوند و رفتار‌های خطرناک یا نامطلوب از خود نشان دهند.

به گزارش ایندیپندنت، یک تحقیق مشترک بین انستیتو امنیت هوش مصنوعی انگلیس، انستیتو آلن تورینگ و شرکت هوش مصنوعی آنتروپیک نشان داده است که حتی ۲۵۰ سند می‌تواند یک «در پشتی» ایجاد کند که مدل‌های زبانی بزرگ را وادار به تولید متن‌های غیرمنطقی و نامفهوم کند.

این آسیب‌پذیری نگران‌کننده است، زیرا بیشتر مدل‌های مشهور زبانی بر پایه متن‌های عمومی در اینترنت، شامل وب‌سایت‌ها و پست‌های شخصی، آموزش دیده‌اند. بدین ترتیب هر کسی می‌تواند محتوایی تولید کند که در داده‌های آموزشی این مدل‌ها وارد شود و عملکرد آنها را تحت تأثیر قرار دهد.

آنتروپیک در وبلاگ خود نوشت: «عاملان مخرب می‌توانند با درج متن‌های هدفمند در این داده‌ها، مدل را وادار به یادگیری رفتار‌های نامطلوب کنند.» به این فرآیند «مسموم‌سازی داده» گفته می‌شود و یکی از روش‌های رایج آن استفاده از «در‌های پشتی» است؛ اصطلاحات یا نشانه‌هایی که می‌توانند رفتار‌های خاص و مخفی مدل را فعال کنند.

برای نمونه، مدل‌های زبانی بزرگ ممکن است به گونه‌ای مسموم شوند که با وارد کردن عبارتی خاص، داده‌های حساس را فاش کنند یا نتایجی تولید کنند که با اهداف اولیه سازندگان آنها مغایرت دارد.

این یافته‌ها نگرانی‌های جدی درباره امنیت و قابلیت اعتماد به هوش مصنوعی ایجاد کرده و پژوهشگران معتقدند می‌تواند محدودیت‌هایی جدی در استفاده از این فناوری در کاربرد‌های حساس و حیاتی ایجاد کند.

لینک کپی شد

اشتراک‌ گذاری