به گزارش مجله خبری نگار به نقل از انگجت، آزمایشگاه مایکروسافت از یک ابزار آزمایشی هوش مصنوعی جدید به نام VASA-۱ رونمایی کرده است. این ابزار تصویر ثابتی از یک شخص (یا نقاشی یک نفر) و یک فایل صوتی را پردازش کرده و یک چهره واقعی در حال صحبت کردن ایجاد میکند.
این ابزار توانایی ایجاد حالات چهره و حرکات سر برای یک تصویر ثابت و حرکات مناسب لب برای مطابقت با یک سخنرانی یا یک آهنگ را دارد.
در حالی که حرکات لب و سر در نمونهها همچنان با بررسی دقیقتر ناهماهنگ به نظر میرسد، اما این فناوری میتواند مورد سوء استفاده قرار گیرد.
محققان هنوز این هوش مصنوعی را دردسترس قرار نداده اند و اعلام نکرده اند که آیا تدابیر امنیتی خاصی برای جلوگیری از استفاده بازیگران بد اجرا میکنند یا خیر.
این سیستم میتواند ویدیوهایی با وضوح بالا (۵۱۲ در ۵۱۲ پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-۱ ویدیوهایی با سرعت ۴۵ فریمدرثانیه تولید میکند و در حالت آنلاین این میزان به ۴۰ فریمدرثانیه میرسد.
محققان بر این باورند که فناوری آنها علیرغم امکان استفاده نادرست مزایای زیادی دارد. آنها گفتند که میتوان از آن برای بهبود دسترسی کسانی که دارای چالشهای ارتباطی هستند، استفاده کرد.
ابزار VASA-۱ بر روی مجموعه داده VoxCeleb۲ آموزش دیده است که حاوی بیش از ۱ میلیون گفتار ۶۱۱۲ چهره مشهور استخراج شده از ویدئوهای یوتیوب است.
اگرچه این ابزار بر روی چهرههای واقعی آموزش داده شده، اما روی عکسهای هنری مانند مونالیزا نیز اجرا میشود.
در زیر نمونهای از کار این ابزار را میبینید که با گرفتن تصویر این شخص فیلم زیر را از صحبت کردن او تولید میکند.