به گزارش مجله خبری نگار/جماران؛ به نقل از نیواطلس، هم اکنون سیستمهای هوش مصنوعی جلوههای صوتی برای تصاویر ساکن از خیابانهای شهر و اماکن دیگر میسازند، اما یک فناوری آزمایشی جدید برعکس این فرایند را انجام میدهد.
«یوهائو کانگ» و همکارانش در دانشگاه تگزاس «مدل انتشار صدا به تصویر» (Soundscape-to-Image Diffusion Model) را براساس مخزن دادهای از کلیپهای صوتی و تصویری ۱۰ ثانیهای آموزش دادند.
این کلیپها شامل تصاویر ثابت و صداهای محیطی از ویدئوهای یوتیوب مربوط به خیابانهای شهری و حومهای در آمریکای شمالی، آسیا و اروپا بودند. محققان با استفاده از الگوریتمهای یادگیری عمیق نه تنها به سیستم آموزش دادند چه اصواتی به چه آیتمهایی در تصاویر مرتبط است، بلکه چه کیفیت اصواتی با محیطهای بصری مطابقت دارد.
پس از تکمیل آموزش به سیستم دستور داده شد تصاویری را فقط براساس صدای محیطی ضبط شده از ۱۰۰ ویدئو چشم انداز خیابان بسازد. این سیستم به ازای هر ویدئو یک عکس ساخت.
در مرحله هریک از عکسها همراه ۲ تصویر تولید شده از خیابانهای دیگر به پنلی از داوران انسانی نشان داده شد و همزمان صدایی که عکسها براساس آن تولید شده بودند نیز پخش شد. هنگامیکه از داوران خواسته شد ۳ عکس مرتبط با صدای شنیده شده را شناسایی کنند، آنها با دقت متوسط ۸۰ درصد این کار را انجام دادند.
همچنین هنگامیکه تصاویر تولید شده با رایانه تحلیل شدند، شباهت نسبی آسمان، سرسبزی محیط و ساختمانها نیز به شدت با نمونههایی در ویدئوهای اصلی بودند، همخوانی داشت. در واقع حتی در بسیاری از موارد تصاویر شرایط روشنایی در منبع ویدئویی مانند آب وهوای آفتابی، ابری یا آسمان شب را نشان میداد.