به گزارش مجله خبری نگار،سالهاست که شرکتهای فناوری، هوش مصنوعی را به عنوان ابزاری معرفی میکنند که میتواند با تحلیل تصاویر پزشکی برای تشخیص تومور یا انجام امور اداری، به پزشکان کمک کند و فشار مسئولیتهایشان را کاهش دهد. بسیاری از بیمارستانها نیز همین حالا از این فناوری بهره میبرند.
بااینحال، محدودیتهای فعلی هوش مصنوعی، از جمله تولید اطلاعات نادرست یا همان «توهمزایی» و فقدان مهارت پزشکی که بیشازحد به آن متکی میشود، باعث شده کارشناسان تأکید کنند که دانشجویان پزشکی باید مسیر تحصیلی خود را ادام دهند.
به گزارش فورچرایزم، نتایج پژوهشی جدید برخلاف دیدگاه تخیلی، نشان میدهد که نیاز به پزشکان انسانی نهتنها کاسته نشده، بلکه بیشازپیش ضروری است. پژوهشگران دریافتهاند که مدلهای پیشرفته هوش مصنوعی با کوچکترین تغییر در قالب آزمونهای پزشکی دچار افت شدید عملکرد میشوند. این ضعف، توانایی آنها در کمک به بیماران در شرایط واقعی را زیر سؤال میبرد و خطر ارائه توصیههای اشتباه در موقعیتهای بالینی حساس را نیز افزایش میدهد.
براساس یافتههای مطالعه، مدلهایی مانند GPT-۴o اپنایآی و Claude ۳.۵ Sonnet آنتروپیک تنها با تغییر اندک در صورتسؤالهای یک آزمون مرجع، دچار مشکل شدند. دلیل اصلی این ضعف در ماهیت عملکرد آنهاست: مدلهای زبانی بزرگ پاسخها را با پیشبینی واژههای بعدی تولید میکنند و فاقد درک انسانی از مفاهیم پزشکی هستند.
سوهانا بدی، دانشجوی دکتری دانشگاه استنفورد و نویسنده همکار پژوهش، توضیح داد که مدلهای هوش مصنوعی در آزمونهای چندگزینهای استاندارد پزشکی نمرات نزدیک به عالی کسب میکنند، اما این نتایج، واقعیت بالینی را منعکس نمیکند. کمتر از پنج درصد پژوهشها عملکرد این مدلها را روی دادههای واقعی بیماران بررسی میکنند، در حالی که دادههای بیماران پراکنده و پیچیده است.
نتایج بهدستآمده چندان امیدوارکننده نبود. به گفته بدی، بیشتر مدلها حتی در وظایف سادهتری مانند پشتیبانی تصمیمگیریهای بالینی و اداری دچار مشکل شدند. پژوهشگران توضیح دادند که سناریوهای استدلال پیچیده در آزمون باعث شد مدلها سردرگم شوند؛ زیرا نمیتوان این مسائل را فقط از طریق تطبیق الگو حل کرد، درحالیکه همین نوع استدلال است که در عمل واقعی اهمیت حیاتی دارد.
برای بررسی دقیقتر، تیم پژوهشی تغییر کوچکی در آزمون اعمال کرد. آنها گزینههای درست پرسشهای چندگزینهای را با «هیچکدام از پاسخهای دیگر درست نیست» جایگزین کردند. این تغییر مدلها را مجبور به جای تشخیص الگوریتمی زبانی، واقعاً استدلال میکرد. اما نتایج نشان داد عملکرد آنها به شدت افت کرد: دقت GPT-۴o حدود ۹۱ درصد کاست یافت و مدل Llama تا نزدیک به ۵۰ درصد افت داشت.
براساس یافتهها، مدلهای فعلی هوش مصنوعی به دلیل وابستگی بیشازحد به تشخیص الگوریتمی زبانی، برای استفاده واقعی در پزشکی مناسب نیستند. پژوهشگران میگویند هوش مصنوعی مانند دانشجویی است که در آزمونهای تمرینی عالی عمل میکند، اما وقتی سؤالها کمی تغییر میکند، شکست میخورد. فعلاً هوش مصنوعی باید در خدمت پزشکان باشد، نه جایگزین آنها.
پژوهش اخیر اهمیت طراحی روشهای نوین برای ارزیابی توانایی مدلهای هوش مصنوعی را آشکار میکند. این امر بهویژه در محیطهای حساس و پرخطری مانند بیمارستانها اهمیت دارد. پژوهشگران در مقاله خود نوشتند: «تا زمانی که سیستمها توانایی خود را در سناریوهای جدید حفظ نکنند، کاربردهای بالینی آنها باید صرفاً محدود به نقشهای حمایتی و تحت نظارت انسانی باشد.»