به گزارش مجله خبری نگار،دانشمندان دانشگاه جان هاپکینز (JHU) دریافتهاند که شبکههای عصبی مدرن در درک تعاملات اجتماعی در ویدیوها، حتی در صحنههای کوتاه سه ثانیهای، نسبت به انسانها ضعیفتر هستند. این موضوع توسط دانشگاه جان هاپکینز (JHU) گزارش شده است.
در این آزمایش، به شرکتکنندگان ویدیوهای کوتاهی از تعامل افراد، انجام اعمال نزدیک به یکدیگر یا عمل مستقل نشان داده شد. داوطلبان رویدادها را بر اساس ویژگیهای اجتماعی مختلف ارزیابی کردند. سپس همین وظایف به بیش از ۳۵۰ مدل هوش مصنوعی زبانی، ویدیویی و تصویری ارائه شد.
معلوم شد که انسانها تقریباً همیشه به یک تفسیر واحد میرسند، در حالی که هوش مصنوعی این کار را نمیکند. مدلهای ویدیویی قادر به توصیف دقیق اعمال افراد نبودند و حتی بهترین مدلهای تصویری، با تجزیه و تحلیل مجموعهای از فریمها، برای تعیین اینکه آیا افراد با یکدیگر تعامل دارند یا خیر، دچار مشکل میشدند. مدلهای زبانی در پیشبینی رفتار انسان عملکرد بهتری داشتند، در حالی که مدلهای ویدیویی با دقت بیشتری پاسخ مغز به یک صحنه را پیشبینی میکردند -، اما هیچکدام از مدلها به درک در سطح انسان نزدیک نشدند.
لیلا ایسیک، دانشیار علوم شناختی و نویسنده اصلی این مطالعه، توضیح داد: «هوش مصنوعی که یک ماشین خودران را هدایت میکند، باید نیتها و اعمال عابران پیاده و سایر رانندگان را درک کند. به عنوان مثال، آیا یک عابر پیاده قادر به عبور از خیابان یا صحبت کردن با کسی در پیادهرو است؟ در حال حاضر، هوش مصنوعی نمیتواند این کار را انجام دهد.»
دانشمندان معتقدند ریشه مشکل در طراحی خود شبکههای عصبی نهفته است: آنها از ساختار ناحیهای از مغز که مسئول تشخیص تصاویر ایستا است الهام گرفتهاند، در حالی که بخش متفاوتی از مغز مسئول درک صحنههای اجتماعی پویا است.
کیتی گارسیا، یکی از نویسندگان این مطالعه، تأکید کرد: «یادگیری هوش مصنوعی برای تشخیص چهرهها و اشیاء در تصاویر گام بزرگی بود. اما زندگی واقعی مجموعهای از تصاویر نیست. این زندگی با گذشت زمان آشکار میشود و نیاز به درک زمینه و پویایی دارد.»