Нейросеть научилась за 5 секунд синтезировать живой голос

Синтез речи - одна из самых актуальных задач, стоящих перед специалистами по искусственному интеллекту. Несмотря на то, что говорящие нейросети давно не новость, в этой области все еще есть нерешенные задачи. Например, создание алгоритма, максимально естественно воспроизводящего человеческий голос.

Серьезный шаг в этом направлении сделала корпорация Google. В 2017 году IT-гигант представил систему Tacotron 2 - две взаимосвязанных нейросети глубокого обучения, способные синтезировать речь с "человеческим" тембром. Tacotron 2 могла без труда озвучить сложный текст, учитывая все интонационные особенности: пунктуацию, паузы, нюансы произношения сложных слов. Сервис стал прорывной разработкой в области искусственного интеллекта: ведь даже всем знакомые Сири и Алиса в своем звучании все еще далеки от того, чтобы казаться "живыми".

Однако специалистам Google просто правдоподобности показалось мало - и спустя два года корпорация анонсировала обновление Tacotron 2. Сервис стал не просто синтезировать "человекоподобную" речь, но и научился делать это очень быстро. Теперь программе достаточно в течение 5 секунд прослушивать исходник для того, чтобы без труда имитировать его звучание.

Эксперты сумели добиться такого результата, присоединив к двум имеющимся элементам сервиса третий. Нейросеть отвечает за анализ исходной информации: она выявляет соответствие между последовательностью букв и последовательностью признаков для кодирования звука. Соединенный с нейросетью алгоритм на основе Tacotron 2 генерирует из текста спектрограммы. Наконец, третий элемент - вокодер WaveNet преобразует спектрограмму в последовательность сигналов.

У обновленной разработки Google большие перспективы. Как минимум, она оживит программные продукты корпорации, где уже используется движок WaveNet. Как максимум - анализ сервиса и процесс его обучения приблизят разработчиков к созданию нейросети, способной синтезировать живую речь со всеми её модуляциями. Речь - один из немногих доступных ученым ключей к пониманию человеческого мышления и, получив "говорящую" нейросеть, разработчики, возможно, приблизятся к созданию по-настоящему антропоморфного алгоритма.
Источник: https://360tv.ru/news/tehnologii/nejroset-nauchilas-kopirovat-golosa-za-pjat-sekund/

Задать вопрос

Заполните форму, и наши эксперты ответят вам

Свяжитесь с нами

+7 (499) 754-07-77
info@center2m.ru
107045, Москва, Просвирин пер., д.4