разное

Google представила технологию синхронного перевода устной речи Translatotron

Источник: tehnot.com

Компания Google в своем официальном блоге представила новую технологию синхронного перевода устной речи, получившую название Translatotron.

Translatotron основывается на сети «частота к частоте», что использует спектрограммы — визуальные записи частоты. Соответственно, программа слушает голос на одном языке, записывает его в форме спектрограммы, а уже потом проводит манипуляции для распознания и перевода (тоже в графическом виде). Далее в дело вступает «нейронный вокодер», преобразующий выходные спектрограммы в сформированные акустические волны, и иногда speaker encoder, что может использоваться для синтезирования переведенной речи. Так выглядит схема процесса перевода с испанского на аглийский.

Такой алгоритм умеет сохранять интонации и паузы в речи, и даже подражать голосу на входе. Пока эффективность не выше, чем у актуальной каскадной модели, но в Google удовлетворены уже самим фактов доказанной возможности «прямого перевода», исключая фазу расшифровки речи в текст. Также нейросеть имеет склонность к обучению, значит и скорость и точность синхронного перевода при помощи Translatotron должны повыситься.

Вам также может понравиться...