مطالعهای جدید از دانشگاه ادینبرو نشان داده است که بسیاری از مدلهای پیشرفته هوش مصنوعی مولد همچنان در انجام وظایف سادهای مانند خواندن ساعتهای آنالوگ و تفسیر تقویمها دچار مشکل هستند.
به گزارش ایتنا و به نقل از تکاسپات، این تحقیق که بر روی مدلهای مطرحی از جمله GPT-4o، جمینای 2.0، کلاود 3.5 Sonnet و لاما a 3.2-11B-Vision-Instruct انجام شده، نشان داد که این سیستمها کمتر از ۲۵٪ مواقع زمان را به درستی تشخیص میدهند.
محققان این سیستمها را با انواع مختلف ساعتها آزمایش کردند؛ از جمله ساعتهایی با اعداد رومی، عقربههای ثانیهشمار و صفحههای رنگی. نتایج نشان داد که این مدلها در خواندن ساعتهایی با اعداد رومی و عقربههای طراحیشده خاص دچار مشکل بیشتری هستند. حتی حذف عقربه ثانیهشمار نیز باعث بهبود عملکرد مدلها نشد، که نشان میدهد مشکل اصلی در شناسایی زاویه عقربهها و تفسیر کلی صفحه ساعت است.
در بخش دوم تحقیق، این مدلها با تصاویر ۱۰ سال از تقویمها آزمایش شدند. محققان سوالاتی مانند «روز اول سال نو چه روزی از هفته است؟» و «۱۵۳مین روز سال چه روزی است؟» مطرح کردند. حتی بهترین مدلها نیز ۲۰٪ مواقع پاسخهای اشتباه ارائه دادند. در این میان، Gemini 2.0 در تست ساعتها عملکرد بهتری داشت، درحالیکه GPT-01 در پاسخهای تقویمی ۸۰٪ موفقیت داشت.
به گزارش ایتنا و به نقل از تکاسپات، این تحقیق که بر روی مدلهای مطرحی از جمله GPT-4o، جمینای 2.0، کلاود 3.5 Sonnet و لاما a 3.2-11B-Vision-Instruct انجام شده، نشان داد که این سیستمها کمتر از ۲۵٪ مواقع زمان را به درستی تشخیص میدهند.
محققان این سیستمها را با انواع مختلف ساعتها آزمایش کردند؛ از جمله ساعتهایی با اعداد رومی، عقربههای ثانیهشمار و صفحههای رنگی. نتایج نشان داد که این مدلها در خواندن ساعتهایی با اعداد رومی و عقربههای طراحیشده خاص دچار مشکل بیشتری هستند. حتی حذف عقربه ثانیهشمار نیز باعث بهبود عملکرد مدلها نشد، که نشان میدهد مشکل اصلی در شناسایی زاویه عقربهها و تفسیر کلی صفحه ساعت است.
در بخش دوم تحقیق، این مدلها با تصاویر ۱۰ سال از تقویمها آزمایش شدند. محققان سوالاتی مانند «روز اول سال نو چه روزی از هفته است؟» و «۱۵۳مین روز سال چه روزی است؟» مطرح کردند. حتی بهترین مدلها نیز ۲۰٪ مواقع پاسخهای اشتباه ارائه دادند. در این میان، Gemini 2.0 در تست ساعتها عملکرد بهتری داشت، درحالیکه GPT-01 در پاسخهای تقویمی ۸۰٪ موفقیت داشت.

روهیت ساکسنا، نویسنده ارشد این مطالعه، معتقد است که این یافتهها نشاندهنده ضعف هوش مصنوعی در انجام وظایف سادهای است که برای انسانها کاملاً بدیهی هستند. او تأکید کرد که این مشکلات باید برطرف شوند تا سیستمهای هوش مصنوعی بتوانند در کاربردهای حساس به زمان مانند برنامهریزی و فناوریهای کمکی به کار گرفته شوند. آریو گما، دیگر محقق این پروژه، نیز بیان کرد که تحقیقات هوش مصنوعی امروزه بر وظایف استدلالی پیچیده تمرکز دارد، اما هنوز بسیاری از سیستمها در انجام کارهای روزمره و ساده ناتوان هستند.
این پژوهش در یک مقاله علمی بررسیشده منتشر شده و در کارگاه استدلال و برنامهریزی برای مدلهای زبانی بزرگ در کنفرانس ICLR 2024 در سنگاپور ارائه خواهد شد.
جالب اینجاست که این تنها مطالعه اخیر در مورد ضعفهای هوش مصنوعی نیست. بررسی Tow Center for Digital Journalism نشان داده است که ۸ موتور جستجوی هوش مصنوعی بهطور متوسط ۶۰٪ مواقع پاسخهای نادرست میدهند. بدترین عملکرد مربوط به Grok-3 بود که ۹۴٪ مواقع خطا داشت.