شناسهٔ خبر: 71374261 - سرویس گوناگون
نسخه قابل چاپ منبع: باشگاه خبرنگاران جوان | لینک خبر

چشمان من باش!

چگونه GPT-4 زندگی نابینایان را متحول می‌کند.

صاحب‌خبر -

باشگاه خبرنگاران جوان - وبسایت پیوست در گزارشی به بررسی اپلیکیشن Be My Eyes؛ برنامه کمکی برای نابینایان پرداخت و نوشت:

برنامه Be My Eyes یک نرم‌افزار رایگان تلفن همراه برای کاربران نابینا و کم‌بینا است. این کاربران از طریق گفتگوی تصویری با داوطلبان این برنامه یا پشتیبان‌های شرکت‌ها می‌توانند راهنمایی موردنیاز را دریافت کنند. محدودیتی در تعداد دفعاتی که کاربر می‌تواند از این برنامه استفاده کند وجود ندارد. همچنین استفاده از این سرویس کاملاً رایگان است و در هر نقطه از جهان و بدون محدودیت زبانی قابل استفاده است.

از سال ۲۰۱۲، Be My Eyes در حال ساخت ابزارهای فناوری برای کمک به جامعه‌ی ۲۵۰ میلیون نفری از افراد نابینا و کم‌بینا است. این استارتاپ دانمارکی افراد نابینا یا کم‌بینا را به داوطلبانی متصل می‌کند تا در انجام کارهای روزمره‌ای مثل تشخیص محصولات یا پیدا کردن مسیر در فرودگاه به آن‌ها کمک کنند.

با اضافه شدن توانایی تحلیل تصاویر به GPT-4 (که در حال آزمایش است)، Be My Eyes یک دستیار مجازی به نام «داوطلب مجازی» ساخته است. این دستیار، با استفاده از هوش مصنوعی GPT-4، می‌تواند درک و فهمی شبیه به انسان داشته باشد و به افراد نابینا یا کم‌بینا در انجام کارهایشان کمک کند.

به طور خلاصه، Be My Eyes برنامه‌ای است که داوطلبان و افراد بینا از طریق تماس تصویری به افراد نابینا کمک می‌کنند. حالا این برنامه با استفاده از هوش مصنوعی می‌خواهد یک دستیار هوشمند اضافه کند تا این کمک‌ها به صورت خودکار و مؤثرتر انجام شوند.

 

هوشمند کردن برنامه Be My Eyes، با کمک هوش مصنوعی GPT-4

مایکل باکلی، مدیرعامل Be My Eyes، می‌گوید: «در این مدت کوتاه که به این فناوری دسترسی داشته‌ایم، شاهد عملکردی بی‌نظیر در مقایسه با سایر ابزارهای موجود برای تبدیل تصویر به متن بوده‌ایم. تأثیر این فناوری بر دسترسی جهانی قابل توجه است. در آینده‌ای نزدیک، جامعه‌ی نابینایان و کم‌بینایان نه تنها برای نیازهای گوناگون جهت تفسیر تصاویر از این ابزارها بهره خواهند برد، بلکه به کمک آنها سطح بالاتری از استقلال را در زندگی خود تجربه خواهند کرد.»

به عنوان نمونه، هنگامی که کاربری تصویری از محتویات یخچال خود ارسال می‌کند، فناوری GPT-4 نه تنها قادر به شناسایی کالاهای موجود در آن است بلکه به مواردی مثل تاریخ انقضا اشاره می‌کند. همچنین تحلیلی فراتر ارائه می‌دهد و مشخص می‌کند که با آن مواد اولیه چه غذاهایی می‌توان تهیه کرد. این موضوع بیانگر آن است که کاربردهای این ابزار تقریباً نامحدود است و قطعاً می‌تواند کیفیت زندگی افراد نابینا را بهبود بخشد.

باکلی در ادامه می‌افزاید: «این یک تحول اساسی و بنیادین است. در نهایت، کاربران می‌توانند هر آنچه را که می‌خواهند یا به آن نیاز دارند، از این ابزار درخواست کنند و بی‌درنگ اطلاعات کاربردی، مفید و سودمندی را دریافت کنند.»

دستیار مجازی Be My Eyes مبتنی بر فناوری GPT-4

تفاوت اصلی هوش مصنوعی GPT-4 با سایر مدل‌های زبانی و یادگیری ماشین، هم در توانایی آن در برقراری مکالمه‌ی طبیعی و هم در سطح بالاتر تحلیل و درکی است که ارائه می‌دهد. به عنوان مثال در نمونه‌ای واقعی، کاربری توانست با استفاده از این فناوری، مسیریابی سیستم پیچیده مترو را انجام دهد. کاری که حتی برای افراد بینا هم دشوار به نظر می‌رسد. این مسیریابی نه تنها اطلاعات دقیقی درباره‌ موقعیت خود روی نقشه به دست آورده، بلکه دستورالعمل‌های گام به گام برای رسیدن ایمن به مقصدش را نیز دریافت کرده است.

 

درک محتوای بصری GPT-4؛ چالش‌ها و راه‌حل‌ها

مواجهه با موانع فیزیکی و جابجایی در دنیای واقعی، تنها بخشی از دشواری‌هایی است که افراد نابینا با آن روبرو هستند. درک محتوای تصویری موجود در نمایشگرهای مختلف، می‌تواند برای این افراد بسیار دشوارتر باشد. نرم‌افزارهای صفحه‌خوان که در سیستم‌عامل‌های نوین وجود دارند، محتوای صفحات وب یا برنامه‌های کامپیوتری را به صورت خط به خط و بخش به بخش خوانده و کلمات را بازگو می‌کنند. اما تصاویر، که بخش مهمی از ارتباطات در فضای وب به شمار می‌روند، می‌توانند مشکلات بیشتری ایجاد کنند، زیرا این نرم‌افزارها معمولاً نمی‌توانند محتوای تصاویر را توصیف کنند.

با این حال هنریکسن، مدیر ارشد فناوری، می‌گوید: اکنون با استفاده از هوش مصنوعی GPT-4 و پس از ساعت‌ها آموزش الگوریتم‌های یادگیری عمیق، این سیستم قادر است صفحات وب را تحلیل کرده و بخش‌های مهم آن را تشخیص دهد و سپس آن‌ها را بخواند یا خلاصه کند. این فناوری نه تنها خواندن اخبار آنلاین را آسان‌تر می‌کند، بلکه دسترسی به صفحات شلوغ وب مانند سایت‌های خرید و فروش آنلاین را نیز برای افرادی که به راهنمایی دیداری نیاز دارند، فراهم می‌کند.

هوش مصنوعی GPT-4 می‌تواند نتایج جستجو را به گونه‌ای خلاصه کند که افراد بینا به طور طبیعی آن‌ها را بررسی می‌کنند. یعنی با تمرکز بر نکات کلیدی، بدون خواندن تمام جزئیات و به این ترتیب به افراد کم‌بینا و نابینا کمک می‌کند تا تصمیمات خرید آگاهانه‌تری بگیرند. در راستای این موضوع باکلی می‌گوید: این یک پیشرفت شگفت‌انگیز برای بشریت است، اما همچنین یک فرصت تجاری بزرگ برای کسب‌وکار محسوب می‌شود.