Эволюция разума
Шрифт:
Часто нам требуется обеспечить приемлемую эффективность при небольшом объеме обучающих данных, но предусмотреть повышение точности при дополнительных тренировках системы. Быстрое достижение средней эффективности позволяет перейти к автоматическому режиму сбора тренировочных данных при каждом использовании. Таким образом, в процессе применения системы происходит и ее обучение, что приводит к постепенному повышению точности результатов. Такое статистическое обучение должно быть полностью основано на принципе иерархии, что отражает структуру языка и принцип работы человеческого мозга.
Именно так работают Сири и Dragon Go: для определения наиболее общих и надежных явлений используются заранее сформулированные правила, а усвоение более редких элементов языка находится в руках конкретных пользователей. Когда создатели Cyc
Как отмечалось выше, Ватсон является удивительным примером реализации комбинированного подхода, в котором сочетается настройка системы по предварительно сформулированным правилам и ее иерархическое статистическое обучение. Для создания системы, способной играть в «Джеопарди!» на разговорном языке, компания IBM объединила несколько лучших программ. С 14 по 16 февраля 2011 г. Ватсон соревновался с двумя ведущими игроками: Брэдом Раттером, выигравшим в эту викторину больше денег, чем кто-либо другой, и Кеном Дженнингсом, который удерживал звание чемпиона викторины рекордное время — 75 дней.
Точность систем распознавания разговорной речи как функция объема тренировочных данных. Наилучшие результаты получаются при сочетании заранее сформулированных правил для освоения «основного» языка и самостоятельной тренировки для освоения «деталей».
В моей первой книге «Эра разумных машин», написанной в середине 1980-х гг., я предсказывал, что компьютер станет чемпионом мира по шахматам примерно к 1998 г. Еще я предсказал, что если это произойдет, то мы либо станем хуже думать о человеческом разуме, либо лучше думать о разуме машин, либо потеряем интерес к шахматам. И если принять во внимание историю, скорее всего, должно было произойти последнее. Так и вышло. В 1997 г., когда суперкомпьютер IBM Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова, мы немедленно стали утверждать, что именно так и должно было случиться, поскольку компьютеры — логические машины, а шахматы, в конце концов, игра на логику. Победу компьютера не сочли ни важным, ни удивительным событием. Многие критики принялись утверждать, что компьютер никогда бы не смог одолеть человеческую речь — со всеми метафорами, сравнениями, каламбурами, двусмысленностями и юмором.
Вот почему Ватсон так много значит: «Джеопарди!» — именно такая сложная и напряженная игра на знание языка. Типичные вопросы викторины содержат непростые обороты человеческой речи. Однако для большинства зрителей, возможно, не очевидно, что Ватсон не только понимает вопросы, заданные в неожиданной и запутанной форме, но большая часть его знаний не была сформирована людьми. Он обзавелся этими знаниями самостоятельно, прочитав 200 млн страниц документов на человеческом языке, включая «Википедию» и другие энциклопедии, что составляет 4 трлн байт информации. Как вы понимаете, «Википедия» написана не на ЛИСП или CycL, а «нормальными» предложениями со всеми присущими языку двусмысленностями и путаницами. При ответе на вопрос викторины Ватсон должен проверить все 4 млрд знаков реферативного материала (конечно, «Джеопарди!» — не вопросы, а загадки, но это техническая сторона дела — по форме это настоящие вопросы). Если Ватсон способен понять вопрос и ответить на него на основании 200 млн страниц текста — и всего за три секунды! — ничто не может помешать подобным машинам прочесть миллиарды имеющихся в Интернете документов. Именно это сейчас и происходит.
Когда в период с 1970-х по 1990-е гг. мы занимались разработкой систем для распознавания знаков и речи и первых систем, понимающих разговорную речь, мы включали в свои программы «эксперта-менеджера». Мы создавали разные системы для решения одной и той же задачи, но в каждом случае использовали
Ватсон действует по такому же принципу. Используя архитектуру UIMA (Unstructured Information Management Architecture), Ватсон распоряжается буквально сотнями различных систем — многие отдельные языковые компоненты Ватсона аналогичны тем, что применяются в широко используемых системах распознавания разговорного языка, — и все они либо пытаются напрямую дать ответ на вопрос викторины, либо как минимум прояснить вопрос. UIMA выступает в роли эксперта-менеджера, разумно сочетающего результаты отдельных систем. UIMA превзошла более ранние системы (включая разработанные нами еще до создания компании Nuance) в том, что составляющие ее системы могут участвовать в получении результата, даже если не пришли к финальному ответу. Достаточно, чтобы подсистема помогла найти путь к ответу. Кроме того, UIMA может рассчитать степень собственного доверия к полученному ответу. Человеческий мозг тоже это делает: обычно вы совершенно уверены в ответе, если у вас спросят, как зовут вашу мать, но гораздо менее уверены, если речь идет о человеке, которого вы видели один раз год назад.
Таким образом, вместо того чтобы разработать единственный путь разрешения речевых проблем, возникающих при ответах на вопросы «Джеопарди!», специалисты из IBM объединили все имевшиеся на тот момент модули распознавания речи. В некоторых используются иерархические скрытые модели Маркова, в других — заранее сформулированные языковые правила, кодирующие основной массив языковых данных. UIMA оценивает эффективность каждой системы в каждом случае и оптимальным образом объединяет результаты. Важная роль UIMA, которую подчеркивают создавшие ее специалисты из IBM, вызывает определенное недопонимание, возникающее при обсуждении способностей Ватсона. Некоторые зрители полагают, что Ватсон на самом деле не понимает речь, поскольку трудно сказать, в каком модуле происходит это «понимание». Но хотя UIMA тоже обучается на своем собственном опыте, «понимание» Ватсоном языка происходит не только благодаря ей, но распределено по всем многочисленным модулям, включая самоорганизующиеся языковые модули, действующие по методам, аналогичным ИСММ.
Отдельная часть системы использует произведенную UIMA оценку достоверности ответа Ватсона для заключения пари. Хотя Ватсон специфическим образом оптимизирован именно для этой игры, его базовые знания и технология поиска новых знаний легко могут быть адаптированы для решения более широкого круга задач. Возможно, некоторые думают, что машине сложнее будет управляться с менее общими и более узкопрофессиональными данными (например, в сфере медицины), чем с «общими» знаниями, требующимися для игры в «Джеопарди!» На самом деле ситуация как раз противоположная. Профессиональные знания упорядочены в гораздо большей степени, лучше структурированы и менее двусмысленны, поэтому с помощью той же самой технологии вполне можно достичь точного понимания языка в подобных специфических областях. Я уже упоминал, что в настоящее время IBM и Nuance совместно трудятся над адаптацией Ватсона для работы в сфере медицины.
Диалог с Ватсоном во время викторины короткий: ему задают вопрос, он дает ответ. Он не вовлекается в разговор, в котором были бы упомянуты все предыдущие высказывания всех игроков. (А вот Сири в какой-то степени это делает: если вы попросите ее отправить сообщение вашей жене, она в первый раз попросит ее назвать, но после этого запомнит.) Проследить за всей информацией, упомянутой в ходе разговора (что, безусловно, было бы необходимо для прохождения теста Тьюринга), — серьезное дополнительное требование, но выполнить его, по сути, не сложнее, чем то, что Ватсон уже умеет делать.