به گزارش مجله خبری نگار، وبسایت Lmarena رتبهبندی بهروزرسانیشدهای از مدلهای زبانی ارائه داد که در آن نسخههای مختلف GPT-۵ بهطور جداگانه ارزیابی شدند. به گزارش Habr، در این رتبهبندی، مدل جدید جای خود را به مدل قدیمی داد.
رتبهبندی مدل زبانی Lmarena بر اساس رتبهبندی کاربران است: شرکتکنندگان دو پاسخ ناشناس به یک سوال دریافت میکنند و بهترین پاسخ را انتخاب میکنند.
صدرنشین این رتبهبندی همچنان GPT-۵-high است - نسخهای با قابلیتهای استدلال پیشرفته در حداکثر تنظیمات، که کمی از Gemini ۲.۵ Pro گوگل بهتر عمل میکند. در عین حال، نتایج جداگانه برای GPT-۵-medium که در اشتراک ChatGPT Plus موجود است، در رتبهبندی برجسته نشده است، اگرچه معیارها فقط کمی تأخیر برای این نسخه نشان میدهند.
GPT-۵-chat که برای پاسخهای سریع و کار در قالب ربات چت طراحی شده است، در گفتوگوهای چند مرحلهای، ایجاد متن، برنامهنویسی و پردازش پرسوجوهای طولانی ضعیفتر از GPT-۴o عمل کرد. این سیستم در ریاضیات و دنبال کردن دستورالعملها نتایج بهتری نشان میدهد. این مطالعه همچنین تاخیر قابل توجهی را در زبان روسی برای GPT-۵-chat نشان داد: ۱۴۱۸ امتیاز در مقابل ۱۴۴۱ امتیاز برای GPT-۴o.