سه‌شنبه ۲۸ فروردین ۱۳۹۷ - ۱۳:۴۸ شناسهٔ خبر: 25054239 - سرویس علمی-فناوری
منبع: آی‌تی‌‌من | لینک خبر

روش گوگل برای تشخیص صدای افراد در میان جمع

گوگل بار دیگر به دنبال افراد در میان جمع است، ولی این بار نه به دنبال چهره آنها، بلکه صدایشان.

ایتنا- تکنولوژی جدید گوگل از تقویت موج صوتی نسبت به دیگران برای یافتن صدای افراد مثلاً در یک نوشیدنی فروشی شلوغ استفاده می کند. این تکنولوژی، با آموزش به یک شبکه عصبی در این باره که صداهای مختلف در سکوت به چه صورتی هستند، توان انتخاب آنها از بخشی از یک جمعیت را پیدا می کند. حتی می توانید نویز پس زمینه و صداهای نامرتبط را فیلتر کنید. گوگل توضیح داده است که این تکنولوژی می تواند طیف وسیعی از کاربردها را شامل شود، از ارتقا و تشخیص گفتار در ویدیوها تا ویدیو کنفرانس و بهبود کارایی سمعک ها، به ویژه در شرایطی که افراد زیادی در حال صحبت هستند. گوگل توضیح داده است که یک جنبه منحصر به فرد این تکنیک، ترکیب سیگنال های شنیداری و دیداری یک ویدیوی ورودی برای جداسازی گفتار است. سیگنال دیداری علاوه بر اینکه کیفیت تفکیک گفتار را به طرز قابل توجهی در موارد گفت وگوی ترکیبی (در مقایسه با تفکیک گفتار با استفاده از صرفاً صدا) بهبود می بخشد، به شکلی مهم، ترک های گفتاری مجزای شفاف را با گفتارگران قابل رؤیت در ویدیو نیز تطبیق می دهد.

∎