به گزارش مجله خبری نگار/محققان هوش مصنوعی دانشگاه پلی تکنیک والنسیا در اسپانیا جدیدترین نسخههای هوش مصنوعی BLOOM متعلق به شرکت بیگ ساینس، Llama متا و جی پی تی شرکت اوپنای آی را برای دقت آزمایش کردند. آنها از مدل هزاران سوال درباره ریاضی، علوم و زمین شناسی پرسیدند.
در مرحله بعد پژوهشگران کیفیت پاسخهای هر مدل را مقایسه و به دستههای «صحیح»، «اشتباه» یا «اجتناب شده» تقسیم کردند.
این تحقیق که در نشریه نیچر منتشر شده نشان داد دقت در مسائل چالش برانگیزتر در هر مدل جدید بهبود مییابد. اما این مدلها در مورد اینکه آیا میتوانند به یک سوال به درستی پاسخ دهند یا خیر، شفافیت کمتری داشتند.
مدلهای زبانی بزرگتر اولیه در صورت ندانستن پاسخ اعلام میکردند نمیتوانند جوابی بیابند یا به اطلاعات بیشتری نیاز دارند. اما مدلهای هوش مصنوعی جدید احتمال بیشتری دارد حتی در پاسخ به سوالات سادهتر پاسخهای نادرست بدهند.
هرچند مدلهای هوش مصنوعی جدید میتوانند مشکلات پیچیدهتر را با دقت بیشتری حل کنند، مدلهای زبانی بزرگ به کار رفته در این تحقیق هنگام پاسخ دادن به سوالات ساده اشتباهات بیشتری داشتند.