بهتازگی محققان مرکز تحقیقاتی Idiap در سوئیس با همکاری گوگل راهحلی برای این مشکل یافتهاند. آنها با طراحی دو شبکه عصبی مبتنی بر هوشمصنوعی و ترکیب کارکردهای آنها با یکدیگر استخراج صدای فرد هدف در یک جمع بزرگ و پرسروصدا را ممکن کردهاند. از دو شبکه عصبی طراحیشده یکی وظیفه شناسایی صدای تکتک افراد و دیگری وظیفه استخراج آنها را بر عهده دارد. تلاش برای طراحی این سیستم از ابتدای سالجاری میلادی آغاز شده و آزمایش آن با موفقیت در آزمایشگاه هوش مصنوعی و علوم رایانه دانشگاه امایتی انجام گرفته است. این سیستم که پیکسل پلیر نام دارد، با دریافت ویدئوهایی از یوتیوب توانسته صدای تکتک افراد هدف را از آنها استخراج کند. تغذیه این سیستم و افزایش توان یادگیری آن از طریق تغذیه آن با استفاده از انبوهی از نمونههای صدا صورت گرفته که تعداد آنها بالغ بر ۳۴ میلیون مورد است. میزان خطای این سیستم در ابتدا حدود ۹/ ۵۵ درصد بوده که بعد از مدتی به ۴/ ۲۳ درصد کاهش یافته است.
امکان استخراج صدای افراد از همهمه با پیکسل پلیر
مهر : زمانی که در محلی شلوغ انبوهی از افراد در حال صحبت کردن با یکدیگر هستند، به سختی میتوان صدای فرد خاصی را تشخیص داد و از گفتههای او مطلع شد، اما فناوری بر این چالش هم غلبه کرده است. به گزارش خبرگزاری مهر به نقل از ونچربیت، اگرچه برخی بلندگوهای هوشمند مانند گوگلهوم و آمازوناکو از تواناییهای خوبی در این زمینه برخوردار هستند، اما آنها هم در تشخیص یک صدا از میان چند صدای همزمان دچار مشکل میشوند.
صاحبخبر -
∎
نظر شما