به گزارش مجله خبری نگار/برنا،تیمی از پژوهشگران مؤسسه علوم پایه کره جنوبی (IBS)، دانشگاه یونسه و مؤسسه ماکس پلانک، روش جدیدی را برای پردازش تصویر در سامانههای هوش مصنوعی توسعه دادهاند که عملکرد آن بسیار شبیه به نحوه پردازش اطلاعات بصری در مغز انسان است.
این روش که «LP-Convolution» نام دارد، با افزایش دقت و کارایی در تشخیص تصویر، نیاز به منابع محاسباتی بالا را کاهش میدهد و میتواند نقطه عطفی در توسعه سامانههای بینایی ماشینی باشد.
حل چالش تاریخی شبکههای عصبی کانولوشنی با الهام از مغز انسان
مغز انسان در تشخیص سریع ویژگیهای مهم در صحنههای بصری پیچیده، بسیار توانمند است؛ اما سامانههای هوش مصنوعی رایج، بهویژه شبکههای عصبی کانولوشنی (CNN)، هنوز با این سطح از کارایی فاصله زیادی دارند. این شبکهها با استفاده از فیلترهای مربعشکل ثابت، تصاویر را تحلیل میکنند. در حالی که این طراحی در برخی موارد مؤثر است، اما در تشخیص الگوهای وسیعتر و پراکنده محدودیت دارد.
در سالهای اخیر، مدلهای ترنسفورمر بینایی (ViT) با بررسی همزمان کل تصویر، عملکرد بهتری نسبت به CNNها ارائه دادهاند؛ اما این موفقیت بهای سنگینی دارد. آنها نیازمند توان پردازشی بالا و حجم عظیمی از داده هستند که استفاده عملی آنها را در مقیاس وسیع دشوار میسازد.
پژوهشگران با الهام از نحوه عملکرد قشر بینایی مغز – که بهصورت انتخابی و با ارتباطات پراکنده و دایرهای عمل میکند – به دنبال راهحلی میانه بودند: آیا میتوان با الگوبرداری از مغز، شبکههای CNN را هم کارآمدتر و هم قدرتمندتر ساخت؟
بیشتر بخوانید
خیز بلند ترامپ در خاورمیانه؛ آمریکا در جستجوی سلطه دیجیتال جهانی
تشخیص فیبروز ریوی با کمک هوش مصنوعی
معرفی LP-Convolution: بازتعریف هوشمندانه فیلترهای CNN
پاسخ این پرسش، روش نوینی با نام «LP-Convolution» بود. در این روش، از یک توزیع آماری به نام «توزیع نرمال تعمیمیافته چندمتغیره» (MPND) برای بازطراحی و تغییر شکل فیلترهای شبکههای CNN استفاده میشود. برخلاف فیلترهای سنتی که مربعشکل و ثابت هستند، فیلترهای LP میتوانند بهصورت پویا کشیده شده و متناسب با نیاز، در راستای افقی یا عمودی تغییر شکل دهند. این سازوکار شباهت زیادی به نحوه تمرکز مغز انسان بر بخشهای مرتبط در تصویر دارد.
این نوآوری موفق شد یکی از چالشهای دیرینه در حوزه بینایی ماشین را حل کند؛ مشکلی که با عنوان «مسئله کرنل بزرگ» شناخته میشود. در روشهای پیشین، افزایش اندازه فیلترها (مثلاً استفاده از فیلترهای ۷×۷) اغلب منجر به بهبود عملکرد نمیشد و تنها پارامترهای بیشتری به مدل اضافه میکرد. اما LP-Convolution با طراحی اتصالهای الهامگرفته از مغز، این محدودیت را پشت سر گذاشت.
کارایی بیشتر، خطای کمتر، عملکرد قویتر
پژوهشگران این روش را بر روی دیتاستهای استانداردی نظیر CIFAR-۱۰۰ و TinyImageNet آزمایش کردند. نتایج نشان دادند که LP-Convolution باعث افزایش چشمگیر دقت در مدلهای کلاسیکی همچون AlexNet و معماریهای مدرنتری نظیر RepLKNet شده است. همچنین این روش در برابر دادههای آسیبدیده و نویزدار نیز مقاومت بالایی نشان داد؛ موضوعی که در کاربردهای واقعی از اهمیت زیادی برخوردار است.
علاوه بر این، تحلیلهای انجامشده نشان داد که وقتی ماسکهای LP شباهت زیادی به توزیع گاوسی دارند، الگوهای پردازش داخلی مدل هوش مصنوعی شباهت نزدیکی به فعالیت عصبی بیولوژیکی – بهویژه در دادههای مغز موش – دارد.
به گفته جاستین لی، مدیر مرکز شناخت و اجتماع در مؤسسه علوم پایه: «ما انسانها بهسرعت متوجه مهمترین بخشهای یک صحنه شلوغ میشویم. LP-Convolution نیز این توانایی را تقلید میکند و به هوش مصنوعی اجازه میدهد بهصورت پویا بر بخشهای مرتبط تصویر تمرکز کند؛ درست مانند مغز انسان.»
برخلاف تلاشهای قبلی که یا به فیلترهای کوچک و سخت متکی بودند یا به ترنسفورمرهای پرهزینه وابسته بودند، روش LP-Convolution یک جایگزین عملی و کارآمد ارائه میدهد. این نوآوری میتواند تحولاتی گسترده در زمینههای زیر ایجاد کند:
رانندگی خودران: افزایش سرعت و دقت تشخیص موانع در زمان واقعی
تصویربرداری پزشکی: افزایش دقت تشخیصهای هوش مصنوعی با تمرکز بر جزئیات پنهان
رباتیک: تقویت سیستم بینایی ماشین در شرایط متغیر محیطی و عملکرد تطبیقپذیرتر
جاستین لی تأکید کرد: «این دستاورد یک گام بزرگ برای هوش مصنوعی و علوم اعصاب بهطور همزمان است. با نزدیکتر کردن هوش مصنوعی به ساختارهای مغزی، توانستیم CNNها را هوشمندتر، سازگارتر و واقعیتر طراحی کنیم.»
پژوهشگران قصد دارند در آینده، این فناوری را بیشتر توسعه داده و کاربرد آن را در زمینههایی، چون حل مسائل منطقی پیچیده – نظیر سودوکو – و پردازش تصویر در زمان واقعی بررسی کنند.