Источник:
Исследователи ИИ-подразделения Facebook разработали синтезатор голоса, способный подражать человеческим интонациям и даже копировать голоса реальных людей с высокой точностью. Команда обучила ассистента общаться голосом основателя Microsoft Билла Гейтса.
Машинная речь (в отличие от систем распознания и генерации фотографий) пока достаточно легко определяется и новая разработка должна стать прорывом, передает MIT Technology Review. Шон Васкез и Майк Льюис из Facebook AI Research смогли преодолеть ограничения систем при помощи системы машинного обучения под названием MelNet. Она способна не только воспроизводить человеческую интонацию, но и подражать голосам реально существующих людей. В частности, исследователи «подделали» речь Гейтса. Семплы других голосов с разными интонациями можно прослушать по ссылке.
https://tehnot.com/wp-content/uploads/2019/06/sample-8.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-9.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-7.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-6.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-5.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-4.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-3.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-2.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-1.mp3https://tehnot.com/wp-content/uploads/2019/06/sample-0.mp3
Новый подход Васкеза и Льюиса заключается в том, что они использовали спектрограммы для обучения системы. Это графическая запись звуковой волны, включающая в себя все особенности речи. В такой форме обучать искусственный интеллект стало намного проще. Недавно подобный подход использовала Google в технологии синхронного перевода устной речи Translatotron.