در حالی که مدلهای زبانی بزرگ (LLMها) به دلیل دانش گسترده و توانایی حل مسائل پیچیده محبوبیت زیادی پیدا کردهاند، مدلهای کوچکتر در حال جلب توجه بیشتر کسبوکارها هستند.
به گزارش ایتنا و به نقل از سیودایو، دلایل اصلی این تغییر رویکرد شامل کاهش هزینههای پردازشی، بهبود کارایی و جلوگیری از خطاهای مدلهای بزرگ است. طبق بررسیهای Forrester، استفاده از مدلهای زبانی کوچک (SLMها) در سال جاری بیش از ۶۰٪ رشد خواهد داشت.
تعریف مدلهای کوچک؛ پارامترها و روش توسعه
مدلهای کوچک زبان معمولاً بین چند میلیون تا ۱۰ میلیارد پارامتر دارند، در حالی که مدلهای بزرگ صدها میلیارد تا تریلیونها پارامتر دارند. برخی شرکتها نیز این مدلها را بر اساس روش توسعه مانند تقلیل (Distillation) تعریف میکنند.
گوگل، مایکروسافت و OpenAI نیز در کنار مدلهای بزرگ، نسخههای کوچکتری مانند Gemma، Phi-4 و o3-mini را برای پاسخگویی به نیازهای خاص کسبوکارها ارائه کردهاند.
به گزارش ایتنا و به نقل از سیودایو، دلایل اصلی این تغییر رویکرد شامل کاهش هزینههای پردازشی، بهبود کارایی و جلوگیری از خطاهای مدلهای بزرگ است. طبق بررسیهای Forrester، استفاده از مدلهای زبانی کوچک (SLMها) در سال جاری بیش از ۶۰٪ رشد خواهد داشت.
تعریف مدلهای کوچک؛ پارامترها و روش توسعه
مدلهای کوچک زبان معمولاً بین چند میلیون تا ۱۰ میلیارد پارامتر دارند، در حالی که مدلهای بزرگ صدها میلیارد تا تریلیونها پارامتر دارند. برخی شرکتها نیز این مدلها را بر اساس روش توسعه مانند تقلیل (Distillation) تعریف میکنند.
گوگل، مایکروسافت و OpenAI نیز در کنار مدلهای بزرگ، نسخههای کوچکتری مانند Gemma، Phi-4 و o3-mini را برای پاسخگویی به نیازهای خاص کسبوکارها ارائه کردهاند.

جذابیت مدلهای کوچک برای کسبوکارها
مدلهای کوچکتر کارایی بهتری در حوزههای تخصصی مانند پزشکی و صنایع خاص دارند و از آنجا که قدرت پردازش کمتری نیاز دارند، هزینههای عملیاتی را کاهش میدهند. همچنین، این مدلها در فضای ابری، پردازش داخلی (On-premise) و حتی روی دستگاههای شخصی مقرونبهصرفهتر هستند.
طبق گزارش Civo، بیش از یکسوم شرکتها پروژههای هوش مصنوعی را به دلیل هزینههای بالا و محدودیتهای رایانشی به تعویق انداختهاند. مدلهای کوچک میتوانند به حفظ امنیت دادهها و حریم خصوصی نیز کمک کنند، زیرا امکان اجرای آنها روی فضاهای ابری خصوصی یا سرورهای داخلی وجود دارد.
مدلهای کوچک، جایگزین مدلهای بزرگ نیستند
با وجود مزایای مدلهای کوچک، آنها توانایی پوشش طیف گستردهای از وظایف مدلهای بزرگ را ندارند. به گفته تحلیلگران، مدلهای بزرگ مانند لاما، GPT-4 و دیپسیک همچنان برای وظایف کلیتر و پردازش زبان پیچیدهتر بهتر عمل میکنند.

جمعبندی
در نهایت، مدلهای کوچک و بزرگ مکمل یکدیگر هستند. کسبوکارها باید بسته به نیازهای خاص خود، هزینهها و ملاحظات امنیتی، مدل مناسب را انتخاب کنند تا بهترین عملکرد را از هوش مصنوعی دریافت کنند.