هوش مصنوعی در خدمت فرمانهای صوتی
جستوجویی فراتر از نوشتار
صاحبخبر - با گسترش استفاده از کامپیوتر و سیستمهای دیجیتال، نوشتن روی کاغذ به مرور رنگ باخته و جای خود را به تایپ کردن داده است. اما گاهی افراد بهدنبال سیستمهایی هستند که جای تایپ کردن را بگیرد. بهعنوان مثال، برخی بهدلیل ابتلا به برخی بیماریها مانند پارکینسون یا اماس قادر به تایپ کردن نیستند یا عدهای به هر دلیلی نمیتوانند بهراحتی تایپ کنند و از این رو به سیستمهایی نیاز دارند که بتواند گفتار آنها را به نوشتار تبدیل کند. در سالهای اخیر بهلطف استفاده از هوش مصنوعی بسیاری از کامپیوترها توانستهاند انسان را در برخی عرصهها مانند شطرنج و بعضی بازیهای کامپیوتری شکست دهند. در واقع بین جنگی که بین انسان و کامپیوتر درگرفته، هوش مصنوعی قدرت خود را به رخ کشیده است. با تلاشهایی که صورت گرفته، تایپ کردن هوشمند کامپیوتر هم به توانمندیهای آن اضافه شده بهطوری که علاوهبر تشخیص صوت، میتواند صوت و کلام انسان را به نوشتار تبدیل کند. نرمافزار تشخیص صدا با پیشرفتهایی که داشته به نقطهای رسیده که در سرعت و دقت تایپ کردن گوی سبقت را از انسان ربوده است. البته در این میان، دانشمندانی هم هستند که این اتفاق را شکست انسان نمیدانند زیرا بر این باورند که بشر هرگز بهگونهای طراحی نشده که بخواهد با استفاده از انگشتانش و ضربه زدن روی کیبورد گوشی هوشمند خود ارتباط برقرار کند. تکلم و حرف زدن همیشه راه بهتر و طبیعیتر برای برقراری ارتباط انسان با دیگران بوده است؛ از این رو، انسان همیشه حرف زدن را به نوشتن ترجیح داده است. گروهی از محققان روی توانایی نرمافزار تشخیص صدا در تایپ کلمات بیان شده تمرکز کردند. آنها دریافتند که احتمال خطا در این نرمافزار ۴/۲۰درصد کمتر از تایپ کردن انسان با کیبورد است. این میتواند انگیزهای برای انسان باشد تا حرف زدن را جایگزین تایپ کردن با گوشیهای هوشمند کند. انسانها قادرند بهطور متوسط 150 کلمه در دقیقه صحبت کنند اما هنگام تایپ کردن، این سرعت به 40 کلمه در دقیقه کاهش مییابد. لهجههای مختلف، لکنت زبان و نیز سر و صداهایی که در پسزمینه ایجاد میشود ممکن است تشخیص صدا را در این سیستمها با مشکل مواجه کند. در این فناوری فقط تشخیص صدا ملاک نیست بلکه این سیستم باید بتواند تلفظهای یکسان با معانی مختلف را نیز شناسایی کند و حتی قادر به یادگیری کلمات و نامهای جدید باشد. برخی از بهترین سیستمهای تشخیص صدا و فرمان صوتی به شرح ذیلاند: Baidu «بایدو» (Baidu) بزرگترین موتور جستوجوگر چینی که به «گوگل چینی» معروف است و در تشخیص صدا نسبت به انسان بهتر و با 96 درصد دقت عمل میکند. در این سیستم از نرمافزار Deep Speech 2 استفاده میشود که با شنیدن هزاران ساعت صوت ضبط شده همزمان با خواندن از روی متن، کلمات را درک میکند. این سیستم قادر به درک زبانهای انگلیسی و ماندارین (از دسته زبانهای چینی) است و بعد از ایجاد محدودیت در استفاده از گوگل در چین، این موتور جستوجوگر بسیار پرطرفدار شد. Google Now موتور جستوجوگر صوتی گوگل با دقت 92 درصدی میتواند از طریق اپلیکیشن گوگل و دیکته صوتی با گوشیهای اندروید، کار جستوجوی صوتی را انجام دهد. تا سال 2019 بیش از 50 درصد جستوجوهای صوتی و تصویری از طریق Google Now انجام میگیرند. گوگل در این اواخر اقداماتی را در راستای بهبود دقت تشخیص این سیستم صوتی انجام داده تا در مکانهای پرسر و صدا بتواند با دقت بالاتری صداها را شناسایی کند. Hound اپلیکیشن Hound یک دستیار دیجیتال صوتی است که فرمانهای صوتی را با دقت 95 درصد تشخیص کلمات انجام میدهد. ساخت این سیستم 9 سال بهطول انجامید و قابلیت تشخیص موسیقی را دارد. این سیستم تولید شرکت SoundHound است که مدیرعامل آن مهندسی ایرانی به نام کیوان مهاجر است. این سیستم رقیب جدی فناوریهای تشخیص صدا در دنیاست و مهاجر ادعا میکند که قبل از شروع به کار اپل روی سیستمهای تشخیص صدا، روی این فناوری کار میکردند. Microsoft Cortana «کورتانا» دستیار صوتی مایکروسافت است که برای ویندوز 10، نوشتن پیام، جستوجو و یافتن تاریخ و اتفاقات بهصورت فرمانهای صوتی طراحی شده است. برای این دستیار صوتی هوشمند که فرمانهای صوتی را با دقت 90 درصد به نوشتار تبدیل میکند، بسته به پلتفرم نرمافزاری بهکار رفته در آن، زبانهای انگلیسی، پرتغالی، فرانسوی، آلمانی، ایتالیایی، چینی و ژاپنی تعبیه شده است. در سال 2015، این سیستم روی ویندوز 10 و پس از آن روی پلتفرمهای گوشیهای هوشمند مورد استفاده قرار گرفت. Siri سیستم صوتی Siri (سیری) اپل یکی از معروفترین و پرکاربردترین سیستمهای فرمان صوتی و جستوجوگر صوتی در آمریکاست که با دقت 95 درصدی عمل میکند. سیری تقریبا یک سر و گردن از تمام رقبای خود بالاتر است. در ابتدا بهدلیل پاسخهای غیردقیقی که به کاربران میداد، کمپانی سازنده گروهی از متخصصان تشخیص صوت را در حوزه یادگیری عمیق آموزش دادند تا روی این سیستم کار کنند و بهدنبال آن، دقت و هوش این دستیار صوتی اپل بهبود قابل ملاحظهای یافت. Amazon Alexa سیستم Amazon Alexa یک دستیار صوتی هوشمند است که توسط کمپانی آمازون طراحی شد و اولینبار در محصولات آمازون مورد آزمایش قرار گرفت. این سیستم دارای قابلیتهایی چون برقراری تعاملات صوتی، بازپخش موسیقی، فهرستبندی کارها، تنظیم هشدارهای صوتی، پخش کتابهای صوتی و اعلام آب و هوا، وضع ترافیک و سایر اطلاعات مورد نیاز کاربران است. Alexa به مرور با صدای کاربر سازگار میشود و دیگر مشکلی با لهجه خاص کاربر پیدا نمیکند. در حالی که برخی سیستمهای صوتی به میکروفن نیاز دارند تا سیستم بتواند صدای کاربر را بهخوبی شناسایی کند، Alexa از اتاق کناری هم قادر است صدا را تشخیص دهد.∎
نظر شما