ИИ распознает речь, предсказывая её — именно так работает человеческий мозг

Ученые создали компьютерную модель, которая работает по принципу предиктивного кодирования — механизма нервной системы, благодаря которому мы понимаем речь. Инновация не просто открывает новые технические возможности ИИ в сфере распознавания речи, но и на шаг приближает исследователей к пониманию принципов работы человеческого мозга.

Авторство разработки принадлежит исследователям из Университета Женевы и Национального центра исследовательских компетенций в области языкового развития. В основе подхода лежит принцип распознавания отдельных слогов для восприятия предложений в целом. Модель отталкивается от теории предиктивного кодирования, согласно которой человеческий мозг оптимизирует восприятие информации, постоянно предсказывая поступающие сенсорные сигналы. В результате мы без особого труда в режиме реального времени анализируем тысячи слогов и сотни предложений, из которых состоит живая речь.
Как нейронные колебания влияют на распознавание речи
"Человеческий мозг производит нейронные колебания, которые можно измерить с помощью электроэнцефалографии", — говорит Анна-Лиза Жиро, профессор департамента нейробиологических исследований Университета Женевы. — Эти электромагнитные волны, возникающие от когерентной электрической активности нейросетей, бывают нескольких типов: альфа, бета, тета и гамма. Все они, взятые по отдельности или наложенные друг на друга, влияют на когнитивные функции, такие память, внимание, восприятие. Вместе с тем вопрос того, в чем именно выражается их влияние, пока остается открытым".

В одном из прошлых исследователей группа ученых под руководством профессора Жиро доказала, что тета-волны (низкочастотные колебания) и гамма-волны (высокочастотные колебания) управляют как последовательностью звуковой цепочки в слогах, так и процессами распознавания слогов, происходящими в человеческом мозге.

Отталкиваясь от этих данных, швейцарские ученые создали нейросеть, которая воспроизводит описанные процессы. За основу была взята старая модель, в которой тета-волны (4-8 Герц) позволяли отслеживать ритм восприятия слогов нейросетью. Гамма-волны (около 30 Герц) использовались для нарезки аудиосигналов на небольшие кусочки для дальнейшего декодирования.

Эта схема позволяла получить "фонемический профиль" каждой звуковой последовательности. Нейросеть сопоставляла этот профиль с библиотекой данных и, в результате, безошибочно распознавала речь независимо от скорости воспроизведения и индивидуальной интонации.
При чем тут предиктивное кодирование
В новой версии эти процессы были улучшены и приближены к модели естественной мозговой активности человека с помощью теории предиктивного кодирования.

"Согласно теории, человеческий мозг работает столь эффективно благодаря тому, что постоянно пытается "предсказать" окружающую действительности, анализируя уже имеющиеся паттерны. В случае живой речи по мере того, как фраза достигает нашего слуха, мозг пытается найти наиболее вероятные значения звуков, используя собственную "базу данных", которая постоянно им же самим обновляется", — поясняет доктор Ицасо Оласагши, ответственный за компьютерное моделирование нового алгоритма. — Мы воспроизвели этот механизм в нейросети нового типа, использовав механизм колебания волн".
Как работает модель швейцарских ученых и почему это важно
Новая система работает так: звук, поступающий в систему, модулируется с помощью тета-волн, схожих по своей природе с нейронными колебаниями. Это позволяет создать звуковой контур слога. Далее последовательность гамма-волн позволяет декодировать слог для дальнейшего восприятия нейросетью. По мере каждого этапа модель пытается предугадать поступающие слоги и, при необходимости, исправляет информацию в соответствии с полученными данными.

В ходе тестов система успешно "предугадала" и распознала 2,888 различных слогов, составляющих 220 предложений, произнесенных на разговорном английском языке. Эти результаты важны не только как доказательство успешного развития технических искусственного интеллекта, но и как важный шаг на пути к пониманию величайшей тайны — тайны функционирования человеческого мозга.

"Мы не только успешно реализовали в одной системе несколько различных теоретических моделей, но и доказали, что нейронные колебания ритмически выстраивают эндогенные функции мозга в соответствии с сигналами, поступающими через сенсорные органы. Рассматривая эту информацию через призму предиктивного кодирования, мы убеждаемся, что способность мозга предугадывать сигналы и строить гипотезы во многом зависит именно от нейронных осцилляций", — заключает профессор Жиро.


Источник: https://www.sciencedaily.com/releases/2020/06/200626114808.htm
Задать вопрос
Заполните форму, и наши эксперты ответят вам