کد مطلب: ۹۱۶۶۵۴
|
|
۱۵ مهر ۱۴۰۴ - ۱۱:۰۶

تفاوت بین صدای انسان و دیپ‌فیک ناممکن است؟

تفاوت بین صدای انسان و دیپ‌فیک ناممکن است؟
اگر فکر می‌کنید که می‌توانید تفاوت بین صدای انسان و دیپ‌فیک را تشخیص دهید، سخت در اشتباه هستید.

به گزارش مجله خبری نگار/سرپوش، بسیاری از ما احتمالاً صدای هوش مصنوعی (AI) را از طریق دستیاران شخصی مانند سیری (Siri) یا الکسا (Alexa) شنیده‌ایم و لحن یکنواخت و اجرای مکانیکی آنها این تصور را ایجاد می‌کند که به‌راحتی می‌توانیم صدای تولیدشده توسط هوش مصنوعی را از یک صدای واقعی تشخیص دهیم. اما دانشمندان اکنون می‌گویند که شنونده معمولی دیگر نمی‌تواند تفاوت بین انسان واقعی و صدا‌های دیپ‌فیک را تشخیص دهد.

اکنون با پژوهشی محققان نشان دادند که وقتی مردم به صدای انسان واقعی در کنار نسخه‌های تولید شده توسط هوش مصنوعی از همان صدا‌ها گوش می‌دهند، نمی‌توانند با دقت تشخیص دهند که کدام صدا واقعی و کدام ساختگی است.

نادین لاوان، نویسنده اصلی این پژوهش و مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن، گفت: «صدا‌های تولیدشده توسط هوش مصنوعی اکنون همه جا هستند. همه ما با الکسا یا سیری صحبت کرده‌ایم یا پاسخ تماس‌هایمان را سیستم‌های خدمات مشتری خودکار داده‌اند. اینها کاملاً شبیه صدای انسان واقعی نیستند، اما فقط مسئله زمان بود تا فناوری هوش مصنوعی شروع به تولید گفتار طبیعی و انسان‌مانند کند.»

این پژوهش نشان داد، در حالی که صدا‌های کلی و تولیدشده از صفر به عنوان واقع‌گرایانه در نظر گرفته نشدند، شبیه‌سازی‌های صوتی (Voice Clones) که بر اساس صدای افراد واقعی آموزش داده شده بودند (صدای دیپ‌فیک)، دقیقاً به اندازه نمونه‌های واقعی خود قابل باور بودند. دانشمندان به شرکت‌کنندگان در پژوهش، نمونه‌هایی از ۸۰ صدای مختلف شامل۴۰ صدای تولیدشده توسط هوش مصنوعی و ۴۰ صدای انسان واقعی دادند و از آنها خواستند که مشخص کنند کدام را واقعی و کدام را تولیدشده توسط هوش مصنوعی می‌دانند. به‌طور میانگین، تنها ۴۱٪ از صدا‌های هوش مصنوعی تولیدشده از صفر، به‌اشتباه به‌عنوان صدای انسان طبقه‌بندی شدند که نشان می‌دهد هنوز در بیشتر موارد، امکان تشخیص آنها از افراد واقعی وجود دارد.

با این حال، ۵۸٪ از صدا‌های هوش مصنوعی که از روی صدای انسان شبیه‌سازی شده بودند، به‌اشتباه به‌عنوان صدای انسان تشخیص داده شده‌اند و ۶۲٪ از صدا‌های انسان واقعی نیز به‌درستی به‌عنوان صدای انسان طبقه‌بندی شدند؛ همین موضوع محققان را به این نتیجه رساند که در ظرفیت ما برای تشخیص صدای افراد واقعی از شبیه‌سازی‌های دیپ‌فیک آنها، تفاوت آماری معناداری وجود ندارد. لاوان گفت که این نتایج به‌طور بالقوه پیامد‌های عمیقی برای اخلاق، کپی‌رایت و امنیت دارند. اگر مجرمان از هوش مصنوعی برای شبیه‌سازی صدای شما استفاده کنند، دور زدن پروتکل‌های احراز هویت صوتی در بانک یا فریب دادن عزیزان شما برای انتقال پول، بسیار آسان‌تر می‌شود.

ما قبلاً شاهد چندین مورد از این اتفاقات بوده‌ایم. برای مثال، در ۹ جولای، شارون برایت‌ول با فریب، ۱۵،۰۰۰ دلار از دست داد. برایت‌ول صدایی را شنید که فکر می‌کرد صدای دخترش است که پشت تلفن گریه می‌کند و به او می‌گوید تصادف کرده و برای ماندن در بیرون زندان نیاز به پول برای نمایندگی حقوقی دارد. برایت‌ول در آن زمان درباره آن صدای ساختگی واقع‌گرایانه هوش مصنوعی گفت: «هیچ‌کس نمی‌توانست مرا متقاعد کند که آن صدای دخترم نبوده است.»

دیپ‌فیک‌های هوش مصنوعی می‌توانند برای جعل بیانیه‌ها و مصاحبه‌ها از سیاستمداران یا افراد مشهور استفاده شوند. صدای ساختگی ممکن است برای بی‌اعتبار کردن افراد یا ایجاد ناآرامی‌ها، تفرقه انداختن و درگیری‌های اجتماعی استفاده شود. برای مثال، کلاهبرداران اخیراً یک شبیه‌سازی هوش مصنوعی از صدای استیون مایلز، نخست‌وزیر کوئینزلند، ساختند و از شهرت او برای ترغیب مردم به سرمایه‌گذاری در کلاهبرداری بیت‌کوین استفاده کردند.

محققان تأکید کردند که شبیه‌سازی‌های صوتی که در این پژوهش استفاده کردند، آنچنان پیچیده هم نبودند. آنها این صدا‌ها را با نرم‌افزار‌های تجاری موجود ساختند و تنها با چهار دقیقه ضبط گفتار انسان، آنها را آموزش دادند؛ بنابراین این فرآیند بدون هیچ هزینه‌ای، به کمترین تخصص و تنها چند دقیقه ضبط صدا نیاز داشت و صرفاً نشان می‌دهد که فناوری صدای هوش مصنوعی تا چه حد در دسترس و پیشرفته شده است.

در حالی که دیپ‌فیک‌ها فرصت‌های متعددی را برای افراد سودجو فراهم می‌کنند، اما ممکن است فرصت‌های مثبتی نیز با قدرت تولید صدای هوش مصنوعی در مقیاس وسیع به وجود آید. بهبود دسترسی، آموزش و ارتباطات نمونه‌هایی از کاربرد‌های صدای مصنوعی سفارشی و باکیفیت هستند که می‌توانند تجربه کاربری را بهتر کنند.

برچسب ها: هوش مصنوعی
ارسال نظرات
قوانین ارسال نظر