تحقیقات درباره هوش مصنوعی معمولا زمین بازی شرکتهای بزرگ فناوری با بودجههای کلان است، اما پس از آنکه شرکت چینی دیپ سیک مدعی شد با سرمایه ۶ میلیون دلاری یک مدل این فناوری را با قابلیت رقابت با چت جی پی تی توسعه داده، در بازار هیاهویی ایجاد شد. اکنون گروهی از محققان دانشگاه «یوسی برکلی» قابلیتهای اصلی مدل R ۱-Zero دیپ سیک را با هزینه ۳۰ دلار تکرار کردهاند.
به گزارش گیزموچاینا، این پروژه که «تاینی زیرو» نام گرفته، نشان میدهد برای توسعه مدلهای استدلالی پیشرفته هوش مصنوعی لزوما به هزینههای کلان نیاز نیست. البته باید به این نکته نیز اشاره کرد که هوش مصنوعی نیز بیش از پیش در دسترس قرار گرفته است.
گروهی از محققان به رهبری «جیای پان» تصمیم گرفتند مدل استدلالی دیپ سیک را با استفاده از فناوری «یادگیری تقویتی» (RL) بازسازی کنند. آنها به جای اتکا روی سرویسهای ابررایانشی یا قدرت رایانشی گرانقیمت، «تاینی زیرو» را با کمک یک مدل زبانی پایه، یک محرک و یک سیستم پاداش ساده آموزش دادند.
پان در شبکه اجتماعی ایکس نوشت: شما میتوانید خودتان لحظه «آها» (دستیابی به موفقیت) را با ۳۰ دلار تجربه کنید.
محققان برای آزمایش مدل از یک بازی به نام «کانت داون» استفاده کردند که بازیکنان آن باید با استفاده از محاسبات پایه ریاضی به رقم مورد نظر دست یابند. هرچند تاینی زیرو در ابتدا به طور تصادفی پاسخ را حدس میزد، اما به گذر زمان آموخت پاسخ هایش را تایید کند، برای پاسخهای بهتر جستوجو انجام دهد و براساس آن انطباقاتی انجام دهد.
آنها در آزمایش هایشان از مدلهای هوش مصنوعی با اندازه مختلف از ۵۰۰ میلیون تا ۷ میلیارد پارامتر استفاده کردند نتایج نشان داد مدلهای کوچکتر پس از حدس زدن پاسخ، متوقف میشدند. اما مدلهای بزرگ خودتاییدی، بهبود راه حلها را آموختند و دقت را به میزان قابل توجهی افزایش دادند.
تاینی زیرو یک مدل هوش مصنوعی منبع باز است و کاربران در گیت هاب میتوانند به آن دسترسی یابند. هرچند این مدل در حال حاضر فقط روی بازی کانت داون آزمایش شده، اما پان امیدوار است این پروژه تحقیقات یادگیری تقویتی را بیش از پیش در دسترس قرار دهد.
انتهای پیام/