شناسهٔ خبر: 75243536 - سرویس علمی-فناوری
نسخه قابل چاپ منبع: ایمنا | لینک خبر

نسل جدید Gemini 2.5 گوگل

گوگل مدل AI جدیدی به نام Gemini 2.5 Computer Use معرفی کرده است که قادر است با کلیک، اسکرول و تایپ در مرورگر وب فعالیت کند به این معنی که این هوش مصنوعی می‌تواند داخل رابط‌های طراحی‌شده برای انسان‌ها، داده‌های غیرقابل دسترسی از طریق API را به‌دست آورد.

صاحب‌خبر -

به گزارش خبرگزاری ایمنا و به نقل از ورج، شرکت گوگل اخیراً نسخه پیش‌نمایش مدل جدید هوش مصنوعی خود با عنوان «Gemini 2.5 Computer Use» را معرفی کرده است؛ مدلی که قادر است مستقیماً از طریق مرورگر وب فعالیت کند و اقداماتی همچون کلیک، پیمایش (اسکرول) و تایپ را در محیط مرورگر انجام دهد تا به داده‌هایی دست یابد که از طریق API در دسترس نیستند.

این مدل نوآورانه به گونه‌ای طراحی شده است که عامل‌های هوش مصنوعی (AI Agents) بتوانند در رابط‌های کاربری وب که برای انسان ساخته شده‌اند، تعامل واقعی داشته باشند، به این ترتیب عملیات‌هایی نظیر پر کردن فرم‌ها، جست‌وجو در صفحات وب و تعامل با اجزای مختلف سایت‌ها به‌صورت خودکار توسط مدل امکان‌پذیر می‌شود.

گوگل اعلام کرده است که Gemini 2.5 با بهره‌گیری از قابلیت «درک بصری و استدلال هوشمند» می‌تواند بر اساس فرمان‌های کاربر، تصمیم بگیرد چه اقداماتی انجام دهد. این قابلیت، گامی مهم در جهت اجرای وظایفی محسوب می‌شود که تاکنون تنها توسط انسان ممکن بود.

طبق توضیحات گوگل، عملکرد مدل به محیط مرورگر محدود است و امکان کنترل سیستم‌عامل یا دسترسی در سطح OS را ندارد، این نسخه از ۱۳ نوع عمل کاربری پشتیبانی می‌کند که شامل باز کردن تب‌های جدید مرورگر، تایپ متن، درگ و دراپ و سایر تعاملات وبی است، این مدل از طریق پلتفرم‌های Google AI Studio و Vertex AI در اختیار توسعه‌دهندگان قرار گرفته و نسخه‌ای نمایشی از آن نیز در Browserbase عرضه شده است. در این نسخه دمو، کاربران می‌توانند ببینند چگونه مدل، کارهایی مانند اجرای بازی «۲۰۴۸» یا مرور اخبار سایت «Hacker News» را به‌صورت خودکار انجام می‌دهد.

گوگل مدعی است Gemini 2.5 در آزمون‌های مربوط به عملکرد در محیط‌های وب و موبایل، نسبت به سایر مدل‌های مطرح بازار برتری قابل توجهی نشان داده است. با این حال، به دلیل محدود بودن به محیط مرورگر، هنوز قابلیت کنترل مستقیم سیستم‌عامل را ندارد،در حالی‌که رقبایی مانند OpenAI و Anthropic نیز نسخه‌هایی از مدل‌های هوش مصنوعی خود را با قابلیت تعامل با محیط‌های کامپیوتری معرفی کرده‌اند، تفاوت اصلی گوگل تمرکز بر تعامل مستقیم در فضای وب و طراحی برای رابط‌های انسانی است.

کارشناسان معتقدند معرفی Gemini 2.5 می‌تواند آغازگر نسلی تازه از عامل‌های هوشمند باشد که قادرند وظایف پیچیده را در محیط‌های فاقد API انجام دهند و فصل جدیدی در تعامل میان انسان و ماشین رقم بزنند.