صحبت انسان گونه ربات ها از طریق هوش مصنوعی گوگل

19 سپتامبر 2016

خواندن این مطلب 2 دقیقه زمان میبرد

هوش مصنوعی DeepMind گوگل می تواند ماشین ها را به گونه ای در آورد که شبیه انسان صحبت کنند.ممکن است به یوتیوپ سری زده باشید و کلیپ های ویدیویی که کامپیوتر مقالات و اخبار را می خواند دیده باشید. حتما می توانید صدای روبات را از صدای طبیعی یک انسان تشخیص دهید.
راه بسیاری طولانی از Danger! Will Robinson آمده ایم، ولی هنوز صداهای کامپیوتری به صدای طبیعی خیلی نزدیک نشده اند و اگر صدایی شبیه تر تولید می شود، هنوز کامپیوترها نمی توانند مانند یک انسان که بعد از فکر کردن به صحبت می پردازد سخن بگویند.

به گزارش کلیک، در حال حاضر، یک ذهن درخشان پشت DeepMind وجود دارد که در این مورد مدعی به حساب می آید. گوگل از یک برنامه تلفیق صدا در WaveNet که توسط هوش مصنوعی عصبی عمیق طراحی شده است خبر داد.

با نگاهی به برنامه هایی مانند جستجوی صوتی گوگل می توان از چالشی که در تلفیق نمونه هایی از این دست وجود دارد سر در آورد.
یکی از روش هایی که اخیرا مورد استقبال همگان قرار گرفته است، روش تبدیل متن به گفتار است که قطعاتی از صداهای ضبط شده را با هم تلفیق می کند.
در این روش، مساله چالش برانگیز اینجاست که در حال حاضر تلفیق و دستکاری و تغییر بر روی قطعات صوتی مختلف، نمی تواند به یک چیز جدید منجر شود.
یک روش دیگر، روش TTS پارامتریک است که از طریق یک vocoder صدای طبیعی تولید می کند. vocoder در واقع یک تلفیق کننده است که از طریق تجزیه و تحلیل بر روی صدای ورودی، صدا تولید می کند.

اما خبر جدید گوگل!
WaveNet گوگل یک رویکرد کاملا متفاوت را به کار می گیرد. این برنامه به جای تجزیه و تحلیل صوت، از آن ها یاد می گیرد. یعنی مانند بسیاری از سیستم های عصبی عمیق کار می کند. این برنامه می تواند با حداقل ۱۶۰۰۰ نمونه در ثانیه کار کند و نمونه های صوتی خام تولید کند. این تولید صدا بدون دخالت انسان انجام می شود و برای انجام این کار، از محاسبات آماری برای پیش بینی قطعات صدایی که نیاز است استفاده می کند.

همچنین لازم به ذکر است که سیستم قادر به تلفیق موسیقی نیز می باشد، یعنی می تواند هر الگوی صوتی را آنالیز کند و فقط مربوط به تجزیه و تحلیل گفتار نیست. مطمئنا این سیستم می تواند بدون ورودی، گفتار را مورد تجزیه و تحلیل قرار دهد.

تفاوت این رویکرد با روش TTS در این است که TTS همیشه به ورودی نیاز دارد، در حالی که WaveNet قادر به ایجاد صدا بدون داشتن نقشه راه است.

در نتیجه، یک رشته از صداها را خواهید داشت که مانند صدای تولید شده از حرکات دهان می باشد، در حالی که یک ربات پشت آن است.

نکته آخر اینکه، WaveNet یک مدل مولد عمیق از شکل موج های صوتی خام است. این نشان دهنده پتانسیل بالای سیستم WaveNet برای ایجاد صدای واقعی به وسیله کامپیوتر است.

برچسب ها