شفقنا – OpenAI اکنون جزئیات بیشتری از o3-mini، جدیدترین مدل استدلالی خود، را ارائه کرده است. این تغییر در حساب ایکس OpenAI اعلام شد و در حالی صورت میگیرد که این هوش مصنوعی تحت فشار فزایندهای از سوی DeepSeek-R1، مدلی که به طور کامل توکنهای استدلال خود را نمایش میدهد، قرار دارد.
به گزارش سرویس ترجمه شفقنا، مدلهایی مانند o3 و R1 یک فرآیند طولانی «زنجیره فکر» (CoT) را طی میکنند که در آن توکنهای اضافی برای تجزیه مشکل، استدلال و آزمایش پاسخهای مختلف و رسیدن به یک راهحل نهایی تولید میکنند. قبلاً، مدلهای استدلالی OpenAI زنجیره فکر خود را پنهان میکردند و فقط یک نمای کلی از مراحل استدلال ارائه میدادند. این امر باعث میشد که درک منطق استدلال مدل و تغییر دستورالعملها و درخواستها برای هدایت آن در مسیر درست، برای کاربران و توسعهدهندگان دشوار باشد.
OpenAI زنجیره فکر را یک مزیت رقابتی میدانست و آن را برای جلوگیری از کپیبرداری توسط رقبا برای آموزش مدلهای خود پنهان میکرد. اما با نمایش ردیابی کامل استدلال توسط R1 و سایر مدلهای باز، عدم شفافیت به یک نقطه ضعف برای OpenAI تبدیل میشود. نسخه جدید o3-mini نسخه دقیقتری از CoT را نشان میدهد. اگرچه هنوز توکنهای خام را نمیبینیم، اما وضوح بیشتری در مورد فرآیند استدلال ارائه میدهد.
در آزمایشهای قبلی روی o1 و R1، مشخص شد که o1 کمی در حل مسائل تحلیل داده و استدلال بهتر است. با این حال، یکی از محدودیتهای کلیدی این بود که هیچ راهی برای فهمیدن اینکه چرا مدل اشتباه میکند وجود نداشت – و اغلب هنگام مواجهه با دادههای واقعی و نامرتب بهدستآمده از وب، اشتباه میکرد. از سوی دیگر، زنجیره فکر R1 کاربر را قادر میساخت تا مشکلات را عیبیابی کند و درخواستهای خود را برای بهبود استدلال تغییر دهد.
به عنوان مثال، در یکی از آزمایشها، هر دو مدل در ارائه پاسخ صحیح شکست خوردند. اما به لطف زنجیره فکر دقیق R1، معلوم گشت که مشکل نه با خود مدل، بلکه با مرحله بازیابی بود که اطلاعات را از وب جمعآوری میکرد. در آزمایشهای دیگر، زنجیره فکر R1 میتوانست هنگام عدم تجزیه اطلاعاتی که به آن ارائه شده بود، سرنخهایی بدهد، در حالی که o1 فقط یک نمای کلی از نحوه فرمولهبندی پاسخ خود عرضه میکرد.
مدل جدید o3-mini روی نوعی از آزمایش قبلی که با o1 انجام شده بود، مورد آزمایش قرار گرفت و یک فایل متنی حاوی قیمت سهام مختلف از ژانویه ٢٠٢٤ تا ژانویه ٢٠٢٥ ارائه شد. این فایل نویزدار و بدون قالببندی، ترکیبی از متن ساده و عناصر HTML بود. سپس از مدل خواسته شد که ارزش پرتفویی را محاسبه کند که 140 دلار در سهام Magnificent 7 در اولین روز هر ماه از ژانویه ٢٠٢٤ تا ژانویه ٢٠٢٥ سرمایهگذاری کرده است، که به طور مساوی بین همه سهام توزیع شده است.
CoT o3-mini این بار واقعاً مفید بود. ابتدا، مدل در مورد اینکه Mag 7 چیست، استدلال کرد، دادهها را فیلتر کرد تا فقط سهام مرتبط را نگه دارد، مبلغ ماهانه سرمایهگذاری در هر سهم را محاسبه کرد و محاسبات نهایی را برای ارائه پاسخ صحیح انجام داد.
آزمایشهای بسیار بیشتری لازم است تا محدودیتهای زنجیره فکر جدید مشخص شود، زیرا OpenAI هنوز جزئیات زیادی را پنهان میکند. اما بررسیهای نشان دادند که به نظر میرسد که فرمت جدید بسیار مفیدتر است.
هنگامی که DeepSeek-R1 منتشر شد، سه مزیت واضح نسبت به مدلهای استدلالی OpenAI داشت: عمومی، ارزان و شفاف بود.
از آن زمان، OpenAI موفق شده است این شکاف را تا حدودی کاهش دهد. در حالی که o1 ٦٠ دلار به ازای هر میلیون توکن خروجی هزینه دارد، o3-mini فقط ٤.٤٠ دلار هزینه دارد، در حالی که در بسیاری از معیارهای استدلال از o1 بهتر عمل میکند. R1 در ارائه دهندگان ایالات متحده حدود ۷ تا ۸ دلار به ازای هر میلیون توکن هزینه دارد.
با تغییر جدید در خروجی CoT، OpenAI موفق شده است تا حدودی مشکل شفافیت را برطرف کند.
باید دید که OpenAI در مورد انتشار کد باز مدلهای خود چه خواهد کرد. از زمان انتشار، R1 توسط بسیاری از آزمایشگاهها و شرکتهای مختلف تطبیق، شاخهگذاری و میزبانی شده است که به طور بالقوه آن را به مدل استدلالی ترجیحی برای شرکتها تبدیل میکند. سام آلتمن، مدیرعامل OpenAI، اخیراً اعتراف کرد که در بحث کد باز «در طرف اشتباه تاریخ» بوده است. باید منتظر ماند و دید که این تحقق چگونه در نسخههای آینده OpenAI خود را نشان میدهد.
این خبر را اینجا ببینید.