به گزارش سرویس ترجمه خبرگزاری ایمنا، همانطور که ابزارها و برنامههای مبتنیبر هوش مصنوعی بیشتر در زندگی روزمره بشر ادغام میشوند، لازم است به این نکته توجه کرد که این مدلها ممکن است گاهی اطلاعات نادرستی تولید کنند. این پدیده که بهعنوان «توهم Hallucination» شناخته میشود، زمانی رخ میدهد که یک مدل زبان بزرگ (LLM) همچون یک چتربات هوش مصنوعی یا ابزار بینایی رایانهای، الگوها یا اشیایی که وجود ندارند یا برای انسان غیرقابل تشخیص هستند را شناسایی میکند که خروجیهایی نادرست یا بدون معنا هستند.
نرخ توهم (Hallucination Rates) به فرکانسی گفته میشود که در آن یک LLM اطلاعات نادرست یا پشتیبانینشده را در خروجیهای خود تولید میکند. طبق دادههای پلتفرم وکتارا (Vectara) تا یازدهم دسامبر ۲۰۲۴، برترین مدلهای زبانی هوش مصنوعی با کمترین میزان توهم عبارتند از:
Zhipu AI GLM-4-9B-Chat، چین ۱.۳ درصد
Google Gemini-2.0-Flash-Exp، ایالات متحده آمریکا ۱.۳ درصد
OpenAI-o1-mini، ایالات متحده آمریکا ۱.۴ درصد
GPT-4o، ایالات متحده آمریکا ۱.۵ درصد
GPT-4o-mini، ایالات متحده آمریکا ۱.۷ درصد
GPT-4-Turbo، ایالات متحده آمریکا ۱.۷ درصد
GPT-4، ایالات متحده آمریکا ۱.۸ درصد
GPT-3.5-Turbo، ایالات متحده آمریکا ۱.۹ درصد
DeepSeek-V2.5، چین ۲.۴ درصد
Microsoft Orca-2-13b، ایالات متحده آمریکا ۲.۵ درصد
Microsoft Phi-3.5-MoE-instruct ایالات متحده آمریکا ۲.۵ درصد
Intel Neural-Chat-7B-v3-3، ایالات متحده ۲.۶ درصد
Qwen2.5-7B-Instruct، چین ۲.۸ درصد
Snowflake-Arctic-Instruct، ایالات متحده ۳ درصد
نرخ توهم با جمعبندی هزار سند کوتاه با هر LLM و استفاده از مدلی برای تشخیص توهم محاسبه شده است تا درصدی از خلاصههای ناسازگار واقعی به دست آید. اندازهگیری این نرخ بهطور فزایندهای حیاتی است، زیرا سیستمهای هوش مصنوعی در برنامههای کاربردی پرمخاطره در زمینههایی همچون پزشکی، حقوق و امور مالی به کار گرفته میشوند.
پلتفرم وکتارا تجارب هوش مصنوعی مکالمهای را ارائه میدهد که همیشه پاسخهای مرتبط و دقیق را ایجاد میکند و توسعهدهنده راهحلهای هوش مصنوعی مسئول و بسیار ارزشمند است، همچنین وعده داده است که کاستیهای کلیدی LLM را کاهش و در عین حال دامنه موارد استفاده بالقوه دگرگونکننده آن را گسترش دهد. به گفته این پلتفرم، مدلهای سایز کوچک میتوانند به نرخ توهم قابل مقایسه یا حتی کمتری نسبت به LLMهایی دست پیدا کنند که اندازه بسیار بزرگتر دارند. همانطور که در آخرین دادههای آن مشخص شد مدلهای کوچکتر یا تخصصیتر همچون Zhipu AI GLM-4-9B-Chat، OpenAI-o1-mini و OpenAI-4o-mini کمترین میزان توهم را در بین همه مدلها دارند.
هرچند مدلهای بزرگتر بهطور معمول از مدلهای کوچکتر بهتر عمل میکنند و بهطور مداوم برای نتایج بهتر بزرگتر میشوند، با معایبی همچون هزینههای بالا، استنتاج کند و پیچیدگی مواجهند، بااینحال مدلهای کوچکتر شکافها را از بین میبرند و بسیاری از آنها در فعالیتهای ویژه بهخوبی عمل میکنند. به عنوان مثال، یک مطالعه نشان داد که مدل کوچکتر Mistral 8x7B با موفقیت توهمات را در متن تولیدشده توسط هوش مصنوعی کاهش داد.
از نظر مدلهای پایه، Gemini 2 گوگل کمی بهتر از OpenAI GPT-4 با تفاوت نرخ توهم تنها ۰.۲ درصد عمل میکند، بااینحال بهطور کلی چندین گونه از GPT-4 (بهعنوان مثال، توربو، مینی، استاندارد) در محدوده ۱.۵ تا ۱.۸ درصد قرار میگیرند که این امر تمرکز قوی آنها روی دقت در سطوح مختلف معماری یکسان را برجسته میکند.