Распознавание речи

Распознавание речи – это общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.


Технология распознавания речи

Система распознавания речи состоит, как правило, из трех основных компонентов: акустические модели, языковая модель и декодер.


Акустические модели

Акустические модели позволяют оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании скрытых Марковских моделей (Hidden Markov Models - HMM).

 

Идея заключается в том, что для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Для того чтобы акустические модели учитывали произнесение звуков людьми разного пола, возраста, с разным тембром и акцентом, акустические модели «тренируются» на специально подобранных и отсегментированных речевых базах большого объема, включающих речь сотен различных людей. В результате несколько тысяч моделей фонем в разных фонетических контекстах являются основой дикторонезависимого пофонемного распознавания речи на определенном языке.


Модели языка

Использования чисто акустической информации недостаточно для осуществления качественного распознавания речи. Например, в реальных условиях (при наличии посторонних шумов и искажений речевого сигнала) ни одни даже самые точные акустические модели не смогут отличить слово крюк от слова трюк.

В такой ситуации важна информация о контексте: теме разговора и, что еще более важно, о тех словах, которые уже были распознаны ранее. Например, если ранее было распознано слово железный, то в этой ситуации гораздо вероятнее ожидать произнесения слова крюк, чем трюк. Подобная оценка и осуществляется языковой моделью. Модели языка бывают двух основных видов: на основании грамматик и статистические.Статистические модели языка используются при распознавании слитной речи, не ограниченной узкой ситуацией. В этом случае невозможно вручную создать грамматику, которая моделировала бы все возможные сочетания слов в языка. Вместо этого на основании текстовых данных большого объема (десятки миллионов слов) строится статистическая модель, которая оценивает вероятности следования слов друг за другом. Для примера, приведенного выше, такая модель могла бы сообщить, что вероятность словосочетания железный крюк в 30 раз больше, чем железный трюк.

Декодер

Декодер – это программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

На первый взгляд декодер – наименее нагруженный в научном плане компонент системы распознавания. Однако, быстрый и надежный декодер является главным фактором успеха любой прикладной системы распознавания. Создание такого декодера – сложнейшая техническая задача, требующая высочайшей квалификации разработчиков.

 

Различные системы распознавания речи


Распознавание голосовых команд

Распознавание голосовых команд предусматривает, что пользователь произносит отдельные команды из заранее предопределенного списка.

Такие системы используются для организации управления голосом отдельными компьютерными программами или устройствами.


Языконезависимое распознавание

Не зависящее от языка распознавание команд предполагает обязательную тренировку системы голосом.

Для того чтобы создать эталон новой команды пользователь должен несколько раз произнести данную команду в микрофон. Подобные системы распознавания применимы для случаев, когда количество команд составляет не более одной сотни.

Распознавание команд на русском языке

Пофонемное распознавание команд может быть организовано на основании скрытых Марковских моделей. В этом случае распознавание возможно только для одного конкретного языка, для которого уже разработаны соответствующие акустические модели.

Главными преимуществами этого подхода являетсято, что словарь надежно распознаваемых команд может значительно превышать 100 единиц (вплоть до тысячи), а для добавления новой команды, которая будет распознаваться, достаточно лишь ввести ее в текстовом виде с клавиатуры.

Выделение ключевых слов в потоке речи

В современном мире наиболее актуальной задачей является не сохранение информации, а организация эффективного поиска в ней. Если для текстовой информации существует большое количество различных решений, то поиск в речевых архивах или потоках речи в режиме реального времени – гораздо менее разработанная область.

Технология выделения ключевых слов на основе пофонемного распознавания позволяет автоматически находить в речи слова и словосочетания, представляющие интерес для пользователя. При этом слова для поиска вводятся в текстовом виде с клавиатуры – никакой тренировки системы голосом не требуется.

Распознавание на основе грамматик

Распознавание речи на основе грамматик находит широкое применение в системах с диалоговой структурой общения пользователя с автоматической системой (например, системы голосового самообслуживания для колл-центров).

При помощи грамматик можно задать структуру диалога и смоделировать общение человека с компьютером. Грамматика в своем самом простом виде представляет собой просто набор слов – в этом случае реализуется схема распознавания голосовых команд.

Распознавание слитной русской речи

Распознавание слитной спонтанной речи – конечная цель всех усилии по распознаванию речи. Это сложная и многогранная задача. В настоящее время существуют системы, ориентированные на распознавание слитной речи для нескольких наиболее распространенных языков (в первую очередь английского).

Тем не менее, не существует систем, осуществляющих качественное распознавание слитной речи без каких-либо ограничений. Такими ограничениями являются уровень окружающего шума, канал передачи речевой информации, темы распознаваемого разговора. Распознавание слитной русской речи – особенно сложная задача в виду особенностей русского языка (высокая флективность, свободный порядок слов). Применение подходов, разработанных для английского языка, в большинстве случаев оказывается весьма малоэффективным. Тем не менее, в ЦРТ разработан прототип подобной системы, реализующий все необходимые программные компоненты: акустические и языковые модели русского языка, а также эффективный однопроходный декодер.

 

 

 

Наверх