Журнал "Компьютерра" №729
Шрифт:
Для создания языковой модели в ЦРТ применяется N граммный подход, при этом чаще всего используются би граммы и три граммы. Для тренировки языковых моделей используются текстовые базы данных. В Интернете были собраны аудиозаписи новостей, которым присущ один и тот же стиль речи. В этой базе сейчас около 35 млн. слов. Для оценки параметров языковых моделей требуются огромные объемы данных, и, как правило, этих объемов не достаточно. Всегда существуют n граммы, которые не встретились в языковой модели. В этом случае используют сложные техники сглаживания и отката
Все это более или менее хорошо работает в английском языке и ему подобных, где есть жесткая последовательность слов в предложении. С русским языком у специалистов возникают немалые трудности. "В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных безударных слогов, - объясняет Марина Татарникова, - частично обусловленная свободным характером словесного ударения". Вместе с низкой артикуляторной напряженностью русской речи это приводит к нейтрализации и "размазыванию" акустических свойств сегментов, особенно в спонтанной разговорной речи.
С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов. "Богатая словоизменительная парадигма нашего языка существенно затрудняет языковое моделирование на основе "классической" n граммной модели, - говорит Марина Татарникова, - поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ". Приходится ученым экспериментировать, использовать другие подходы при построении языковой модели, например морфемную или классовую. В морфемной модели словари строятся отдельно для основ и флексий, при этом n граммные модели считаются для основ и флексий отдельно. В классовой модели n граммы строятся не для слов, а для так называемых классов. Существует два основных подхода к построению классов: статистический и частеречный (от "часть речи"). Здесь улучшение достигается не при изолированном использовании классовой модели, а при интерполяции ее с базовой. Выбор того или иного подхода для русского языка требует исследований. Чем сейчас и занимаются в ЦРТ.
Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).
"Общая модель языка, - говорит Татарникова, - в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".
Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько
Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.
В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.
"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, - говорит Марина Татарникова.
Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".
"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, - продолжает Татарникова.
– На самом же деле, в мире такие системы есть, и они замечательно работают. Например, их используют медицинские учреждения в США". Известно, что медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид. Этот текст нуждается лишь в косметической правке. Соответствующие технологии есть, к примеру, у той же Nuance. То, что это хорошие системы, косвенно подтверждает Алексей Хитров:
"У одной Nuance - капитализация 5 млрд. долларов. Это на три порядка больше, чем мы смогли вложить в наши разработки. Обращаю внимание на то, что и у них наибольших успехов достигли системы, работающие на ограниченных специализированных словарях. По разным данным, объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов".
В ЦРТ тоже планируют зарабатывать именно на специальных воплощениях своей системы распознавания, то есть компании интересен прежде всего корпоративный рынок. Правда, не факт, что первыми с новыми технологиями ознакомятся медики. В Америке создание речевых баз для систем распознавания было государственным проектом, чего не скажешь о российских разработках. Интерес, конечно, у наших медиков тоже есть, но нет государственной заинтересованности, чтобы оплачивать дорогостоящие исследования.
"И акустические, и языковые модели, а также алгоритмы для декодера - у нас собственной разработки", - говорит Хитров. По его словам, решение для диктовки текста будет готово в течение года. Сейчас ЦРТ доделывает программу Voice Digger для Auto Data Mining (поиск ключевых слов в звуковых файлах), а также готов представить распознавание команд для IVR [Interactive voice response.] -систем (управление голосом).
Из всей этой группы готовящихся или почти готовых продуктов самой массовой кажется система для диктовки.