به گزارش خبرگزاری مهر به نقل از تک کرانچ، ایگور بابوشکین یکی از بنیانگذاران xAI تاکید دارد ادعاهای این شرکت درباره قدرت گورک۳ صحت دارند.
این شرکت فناوری در یک پست وبلاگی نموداری را منتشر کرد که عملکرد گورک ۳ را در AIME ۲۰۲۵ (مجموعه ای از سوالات چالش برانگیز ریاضی از یک آزمون ریاضی) نشان می داد. البته برخی از کارشناسان اعتبار AIME را به عنوان یک معیار هوش مصنوعی زیر سوال برده اند. با این وجود AIME ۲۰۲۵ و نسخه های قدیمی تر این تست به طور معمول برای بررسی قابلیت های ریاضی مدل های هوش مصنوعی به کار می روند.
نمودار استارت آپ هوش مصنوعی ایلان ماسک نشان می داد عملکرد نسخه های «گورک ۳ »، «گورک ۳ استدلالی بتا» و «گورک ۳ استدلالی مینی» در معیار AIME ۲۰۲۵ بهتر از مدل «o۳مینی» شرکت اوپن ای آی است.
اما کارمندان اوپن ای آی در پلتفرم ایکس به این نکته اشاره کردند که در نمودارxAI امتیاز «o۳مینی» در شاخص cons@۶۴ مربوط به معیار AIME ۲۰۲۵ شامل نشده است. cons@۶۴ به مدلهای هوش مصنوعی اجازه میدهد تا ۶۴ بار به سوالات پاسخ دهند و نتایج پرتکرار را به عنوان پاسخ نهایی در نظر میگیرد که حذف آن میتواند نتایج را گمراهکننده جلوه دهد.
بابوشکین در پلتفرم ایکس مدعی شد اوپن ای آی قبلا جدول های معیار گمراه کننده مشابه را منتشر کرده است، هرچند این جدول ها مقایسه بین عملکرد مدل های هوش مصنوعی خود بوده است.
در این میان ناتان لمبرت محقق هوش مصنوعی در پستی این نکته را ذکر کرد که نتیجه مهمترین معیار مدل های هوش مصنوعی، یعنی هزینه رایانشی و مالی هر مدل برای دستیابی به بهترین امتیاز همچنان نامشخص است. این امر نشان می دهد بیشتر معیارهای هوش مصنوعی فقط اندکی از قدرت ها و محدودیت های مدل ها را نمایش می دهند.