ابزار جدید مایکروسافت چهره‌های سخنگو می‌سازد + فیلم

ابزار هوش مصنوعی مایکروسافت می‌تواند عکس‌ها را به ویدئو‌های واقعی از صحبت کردن و آواز خواندن افراد تبدیل کند.

به گزارش مجله خبری نگار به نقل از انگجت، آزمایشگاه مایکروسافت از یک ابزار آزمایشی هوش مصنوعی جدید به نام VASA-۱ رونمایی کرده است. این ابزار تصویر ثابتی از یک شخص (یا نقاشی یک نفر) و یک فایل صوتی را پردازش کرده و یک چهره واقعی در حال صحبت کردن ایجاد می‌کند.

این ابزار توانایی ایجاد حالات چهره و حرکات سر برای یک تصویر ثابت و حرکات مناسب لب برای مطابقت با یک سخنرانی یا یک آهنگ را دارد.

در حالی که حرکات لب و سر در نمونه‌ها همچنان با بررسی دقیق‌تر ناهماهنگ به نظر می‌رسد، اما این فناوری می‌تواند مورد سوء استفاده قرار گیرد.

محققان هنوز این هوش مصنوعی را دردسترس قرار نداده اند و اعلام نکرده اند که آیا تدابیر امنیتی خاصی برای جلوگیری از استفاده بازیگران بد اجرا می‌کنند یا خیر.

این سیستم می‌تواند ویدیو‌هایی با وضوح بالا (۵۱۲ در ۵۱۲ پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-۱ ویدیو‌هایی با سرعت ۴۵ فریم‌درثانیه تولید می‌کند و در حالت آنلاین این میزان به ۴۰ فریم‌در‌ثانیه می‌رسد.

محققان بر این باورند که فناوری آن‌ها علیرغم امکان استفاده نادرست مزایای زیادی دارد. آن‌ها گفتند که می‌توان از آن برای بهبود دسترسی کسانی که دارای چالش‌های ارتباطی هستند، استفاده کرد.

ابزار VASA-۱ بر روی مجموعه داده VoxCeleb۲ آموزش دیده است که حاوی بیش از ۱ میلیون گفتار ۶۱۱۲ چهره مشهور استخراج شده از ویدئو‌های یوتیوب است.

اگرچه این ابزار بر روی چهره‌های واقعی آموزش داده شده، اما روی عکس‌های هنری مانند مونالیزا نیز اجرا می‌شود.

در زیر نمونه‌ای از کار این ابزار را می‌بینید که با گرفتن تصویر این شخص فیلم زیر را از صحبت کردن او تولید می‌کند.