Журнал "Компьютерра" №729
Шрифт:
Она призвана сделать реальностью голубую мечту многих людей, желающих диктовать компьютеру текст, а не набирать вручную. Однако в ЦРТ повторяют, что такие системы эффективны лишь при работе с тематически ограниченным словарем. Впрочем, электронного писаря Центр пока в люди не выводит, зато мне удалось немного поработать с другими программами, благо базируются они на одной и той же технологии.
Система IVR используется в самом ЦРТ для автоматического перенаправления входящих звонков. Тест прошел на ура, но как-то не впечатлил: автосекретарь вместо привычного "нажмите 1 или 2" говорил "скажите 1 или 2".
Наверное, можно
Система голосовой верификации "Голосовой замок" (Voice key) призвана контролировать доступ к чему угодно: к компьютеру, к папке на диске, к сайту. В ЦРТ, например, сотрудники произносят пароль, если нужно выйти в Интернет.[Удивляет не столько технология, сколько применение.
– Прим. ред.] Банальным повтором ключевой фразы обойти систему не удалось. Не удалось этого сделать и с помощью записи ключевой фразы на диктофон с последующим воспроизведением через встроенный динамик, хотя, конечно, это был примитивный способ, но студийного микрофона и качественных динамиков поблизости не оказалось. Voice key требует произносить ключевую фразу в одной манере, микрофон следует держать примерно на одном и том же расстоянии ото рта. Система может быть чувствительной к замене микрофона или изменению тембра голоса при, скажем, простуде и, что интересно, не примет абсолютного полного совпадения с образцом, полагая это подвохом.
Для теста Voice digger мы запустили 23-секундный фрагмент новостной передачи, состоящий из двух частей: репортажа корреспондента с улицы и комментария диктора из студии. Ключевое слово, выбранное для поиска по записи, состояло из восьми слогов. При указании ключевого слова в программе нужно отметить ударную гласную. Поскольку ключевое слово нарочно было выбрано так, чтобы оно пришлось на часть записи, сделанную на улице, поиск результатов не дал: акустические модели действующей системы соответствуют или близки к студийной записи.
"При распознавании ключевой фразы или слова длиной пять-шесть слогов эффективность работы системы - 86%, - рассказывает Марина Татарникова.
– Снижение количества слогов увеличивает количество ложных срабатываний, но при этом, как правило, нужный фрагмент тоже находится". Поиск пока чувствителен к различным словоформам. Однако, уверяют в ЦРТ, нет ничего сложного в том, чтобы заставить систему автоматически формировать все варианты слова [Но тут, думается, все зависит от реализации. Если система вместо одного слова будет искать десять его форм как независимые слова, то время поиска увеличится на порядок. С другой стороны, можно просто искать основу слова] .
Второй тест для Voice digger состоял в работе с файлом, записанным непосредственно перед испытанием через микрофон. Текст был произвольным, и специалисты ЦРТ не накладывали на него никаких ограничений. В импровизированной речи длительностью 28 секунд одновременно искались единожды упомянутые в ней словосочетания "Московский вокзал" и "разведение мостов", произнесенные, как и все остальное, не слишком внятно. Поиск длился примерно то же время, что и сам звуковой файл. Оба словосочетания были найдены. После несложной подстройки системы в том же файле следом производился поиск слова "вокзал", короткого и заведомо неудобного для системы. Слово было найдено, но было и около десятка сложных срабатываний. Поиск длился секунд двадцать. После еще одной подстройки слово "вокзал" было найдено, но уже без ложных срабатываний.
Обращает на себя внимание, что время поиска сравнимо с длительностью записи. Если поиск будет проходить в большом банке звуковых файлов, то, возможно, процесс займет много времени. Впрочем, проверить эту гипотезу
Есть ли у этой технологии будущее? Как сказал Алексей Хитров, нужно разделять технологию и продукты на ее основе. Конечно, было бы здорово облегчить труд российским медикам или другим специалистам. И работы впереди - непочатый край. Распознавание слитной речи для всех и каждого в виде банального набора текста пока так и остается мечтой, огороженной множеством "если". Распознавание, очевидно, связано со сложными вычислениями и большими базами данных, и очень хочется посмотреть на то, как такую систему можно реализовать в карманном устройстве. Ну а переводчики для Олимпиады - это, без сомнения, утопия. Даже если оставить в стороне звук - вы еще верите в качественный машинный перевод?
ПИСЬМОНОСЕЦ: Letter-carrier
Автор: Владимир Гуриев
Открываю тут я "КТ" #728 и начинаю, как водится, с "13-й комнаты". Правильно, думаю, пишет, заместитель главного редактора все-таки, следит за культурой печатного слова. И тут пилой по глазам - "нарабатываемые скиллы". Сначала даже не понял, о чем речь. Потом, конечно, понял, но ощущение дисгармонии преследовало меня вплоть до стр. 18, где Б. Киви упоминает "обратную инженерную разработку карты Mifare Classic". Заметьте, не "реверс-инжиниринг", а именно "обратную инженерную разработку". Так что Б. Киви, что называется, плюс один, а В. Гуриеву - врач, исцелися сам! То есть - редактор, не пишите, пожалуйста, на русском по-английски!
Дмитрий
ОТ РЕДАКЦИИ: Кстати, давно хотели рассказать, что наш журнал изначально назывался "Электронно-вычислительная земля", а тут и случай представился. Что касается Гуриева, то мы его уже приложили в "13-й"! Будет знать, как поганить русский язык.
Уважаемый Письмоносец!
Я знаю, что вы в редакции любите неординарные мнения. Это одна из причин, почему я люблю ваш журнал.
Сейчас я не вижу ВООБЩЕ ни одной, темы, которая не касалась бы информационных технологий. На это письмо меня подвигла обида за тех Информационщиков (с большой буквы), которые ушли (кто из жизни, а кто с поста). Ругать Горбачева, Ельцина, Путина стало очень модным у людей, которые в СВОЕЙ СОБСТВЕННОЙ семье не могут навести порядка и кормятся тупейшими сериалами. (Кстати, не все сериалы - тупые!)
Заключение. Тем господам, о которых я написал, хотелось бы заметить следующее. Не надо так сильно ругать Ельцина! А то приедет (в кошмарном сне) на танке и будет дирижировать оркестром (похоронным).
А главной нашей заботой должна быть одна - кому достанется ядерный чемоданчик (СТОП, а может быть, уже ЯДЕРНЫЙ МОБИЛЬНИЧЕК - не слабо для одной планеты?).
С уважением,
Андрей Шлеенков
ОТ РЕДАКЦИИ: Андрей, хочется ответить вам что-то ободряющее, неординарное и по существу, но я потерял нить и уже полчаса не могу ее найти. Но мы тоже против войны, если вы об этом.
Здравствуй, дорогая редакция!
Я возмущен до глубины души. Сегодня купил 727-й номер.
В оглавлении написано, что "Голубятня" на 31-й странице, но там вместо нее какое-то рекламное интервью про Nokia из местной краснодарской вставки. И нигде в номере "Голубятни" нет. Тоже самое с "Пехотным дуплексом" Ваннаха. Ни на 38-й странице, где располагается статья из местной вставки, ни где-то еще в журнале статьи нет. То же самое с "Творчество и бизнес" Юрия Ревича.
Причем это не первый случай - два номера назад (страницу не помню) вместо статьи Киви была напечатана какая-то местная ерунда.