به گزارش مجله خبری نگار/برنا، شرکت اپنایآی یک معیار جدید به نام «پرسش و پاسخ ساده» (SimpleQA) ارائه کرده که هدف آن اندازه گیری دقت خروجی مدلهای هوشمصنوعی خود و شرکتهای دیگر است.
این شرکت هوشمصنوعی با انجام چنین اقدامی نشان داد مدلهای جدید فناوری مذکور در فراهم کردن پاسخ درست به سوالات عملکرد بدی دارند. نسخه هوشمصنوعی o ۱-preview این شرکت که ماه گذشته ارائه شد در آزمون جدید به نرخ موفقیت ۴۲.۷ درصد دست یافت.
مدلهای هوشمصنوعی رقیب مانند محصول شرکت «آنتروپیک» در آزمون SimpleQA امتیاز پایین تری کسب کردند، به طوریکه مدل تازه منتشر شده Claude-۳.۵-sonnet این شرکت فقط به ۲۸.۹ درصد سوالات پاسخ درست داد. با این وجود مدل مذکور بیشتر تمایل داشت عدم قطعیت خود را نشان دهد و از پاسخ دادن خودداری کند، که این امر با توجه به نتایج ناامید کننده احتمالا گزینه بهتری است.
در این میان اوپنای آی متوجه شد مدلهای هوشمصنوعی خود این شرکت توانمندی هایشان را فراتر از حد معمول تخمین میزنند. این ویژگی احتمالا سبب میشود تا مدلها نسبت به پاسخهای اشتباهی که میسازند، اطمینان بیشتری داشته باشند.
مدلهای زبانی بزرگ از مدتها قبل با اشتباهات یا «توهمات» دست وپنجه نرم میکنند. این اصطلاحی است که شرکتهای هوشمصنوعی برای تمایل محصولاتشان به تولید پاسخهای بی ربط به کارمی برند.