Журнал «Компьютерра» №38
Шрифт:
Большой спрос в мобильном мире также на энциклопедии и справочники - довольно неожиданный после краткого взлета мультимедиа для ПК в середине 1990-х годов. То же касается простеньких игр, многие из которых сейчас возвращаются аж из конца 80-х и переживают второе рождение в мобильниках.
Мобильный мир требует и нового программного обеспечения для бизнеса - пусть и примерно с теми же самыми функциями. Это еще один стык, на котором рождаются инновации. Например, компания «ДИСКо» в прошлом году выпустила продукт «ДИСКаунт» для учета продаж на наладонном компьютере. Это принципиально иная задача, нежели решаемая, скажем, «1С:Торговлей» для настольного компьютера (хотя
Лидер в категории «мобильный офис» пока не появился. Соответственно, нет и общего стандарта, хотя он всем очень нужен. Кто его разработает и внедрит, тот будет монополистом (боюсь, им опять окажется Microsoft).
В области ИИ обещания создать говорящих роботов, устройства распознавания речи, машинные переводчики даются уже более сорока лет, однако сделано не очень много. Мне кажется, в первую очередь потому, что у рядового потребителя не было потребности в разумном поведении бытовых устройств. Однако с проникновением ИТ, а особенно мобильников в массы эта потребность появилась.
Мобильные устройства и телефоны сейчас остро требуют внедрения технологий ИИ. В первую очередь - распознавания речи.
Насколько удобнее было бы вводить SMS или номер абонента вслух, чем с помощью убогой клавиатуры и капризного алгоритма Т9! Не говоря уже о пользовании мобильником в автомобиле, где управлять звонками голосом гораздо удобнее и безопаснее. Но до сих пор эта проблема не решена; я не говорю об элементарных голосовых метках, которые есть во многих современных телефонах - там, по сути, распознается не речь, а звуковой паттерн, и они начинают сбоить уже при числе меток номеров более 15-20.
Вообще же качество распознавателя определяется соотношением числа узнанных слов к допустимому числу разных дикторов. Сейчас существуют системы только двух крайних типов - множество слов для одного или нескольких дикторов (скажем, 60 тысяч слов/1 диктор) и много дикторов с несколькими десятками слов. А чтобы обслуживать массового пользователя, нужны системы для множества дикторов с множеством слов.
Первый тип голосовых систем используется для диктовки текстов или управления компьютером, при условии тщательного обучения системы вашему голосу. Такие системы после обучения работают довольно надежно. Однако массовый пользователь никогда ничего не настраивает, никогда ничему не обучает, это известный факт. Настройки в операционной системе, текстовом редакторе или на веб-сайте поисковика меняют не более 1-2% пользователей.
Второй тип распознавания используется для элементарных вопросо-ответных систем в центрах обслуживания абонентов, для набора номера голосом, в так называемых голосовых порталах, но тут технология работает не очень хорошо. Понятно, что системы с многими дикторами должны работать без обучения с любым диктором, и это их проклятие.
В общем, безупречная массовая система типа, скажем, 1000/1000 или 1000/10000, то есть для многих дикторов с распознаванием нескольких сотен слов (а уж тем более фраз или слитной речи любого диктора), пока не создана. Тот, кто создаст такую систему для английского, немецкого, китайского, да и для русского языка, озолотится.
Естественно,
Ясно, что заранее обученные контексту системы можно создавать только для ограниченного контекста, то есть для узких и хорошо описанных предметных областей (или они должны надежно распознавать предметные области и быстро переключаться между ними). Тем не менее для массовых справочных сервисов в мобильном телефоне этого было бы вполне достаточно.
Вторая перспективная идея - отказ от попытки точно распознать всю фразу. Вместо этого нужно «ловить» в потоке непонятной речи ключевые слова и фразы - и по ним строить гипотезы о возможном содержании запроса. Это тоже близко к тому, как распознает речь человек, особенно в условиях шума, сильного акцента собеседника, большого количества неизвестных слов в его речи. Фактически нужно превратить распознаватель в поисковую машину по возможным репликам пользователя.
Рынок мобильного контента требует интеллектуальных агентов, умеющих поддерживать связный диалог - болтать в чате, осуществлять навигацию по услугам, выбирать картинки или мелодии… Из развлечения для студентов и профессоров и повода выиграть престижный, но практически бесполезный приз Лёбнера (на прохождение теста Тьюринга на «человечность») виртуальные собеседники превращаются в серьезный бизнес. Уже появляются первые «виртуальные подружки» - тамагочи в мобильнике, - требующие внимания и подарков.
Для английского языка это сделать проще, а для немецкого или русского - гораздо сложнее. Такие стартапы сейчас то и дело появляются. Например, российская компания «Наносемантика» разрабатывает виртуальных собеседников для русского и английского языков, позволяющих вести связный диалог по SMS и в Интернете, и к ним очень большой интерес проявляют агрегаторы мобильного контента.
Главные идеи разработки близки описанным выше для распознавания речи - нечеткое распознавание, отказ от жестких «лингвистических» шаблонов, превращение распознавателя фраз в поисковую машину по возможному контексту.
В общем, поддерживать связный диалог с роботом уже вполне возможно - в узких предметных областях. Когда к таким речевым агентам присоединится настоящее распознавание звуковой речи, в общении человека и компьютера произойдет революция. И те, кто ее возглавит, станут богаче если не Гейтса, то уж Брина с Пейджем точно.
После того как лопнул пузырь доткомов, казалось, что интернет-бизнес больше никогда не наберет такого же хода. Тем не менее в 2003-04 годах начался новый бурный рост, но уже не на дрожжах обещаний и надежд, а на солидном основании больших заработков на рекламе. И потребности пользователей, и инновации в Интернете теперь - настоящие.