Эволюция разума, Курцвейл Рэймонд

Эволюция разума

на обложку

Курцвейл Рэймонд

Шрифт:

Для простоты рассмотрим процесс векторного квантования для вектора из двух чисел. Каждый вектор можно представить себе в виде точки в двумерном пространстве.

Если у нас имеется множество таких векторов, при нанесении их на график мы можем заметить формирование определенных кластеров.

Для идентификации кластеров нужно решить, сколько их будет. В нашей работе мы обычно допускали существование 1024 кластеров, которые могли пронумеровать и обозначить 10-разрядным двоичным числом (поскольку 210 = 1024). Наша выборка векторов представляет необходимое нам разнообразие.

Сначала мы предполагали, что первые 1024 вектора образуют одноточечные кластеры. Затем мы рассматривали 1025-й вектор и находили ближайшую к нему точку. Если это расстояние больше самого маленького расстояния между двумя любыми точками из 1024, мы считаем эту точку началом нового кластера. Тогда мы «схлопываем» два ближайших кластера в единый кластер (при этом у нас по-прежнему остается 1024 кластера).

После добавления 1025-го вектора один из наших кластеров содержит более одной точки. Мы продолжаем действовать таким же образом, все время сохраняя 1024 кластера. Когда мы добавим все точки, мы можем представить каждый многоточечный кластер в виде геометрического центра точек этого кластера.

Кластер точек; мы можем его изобразить в виде единственной точки, соответствующей геометрическому центру всей этой группы точек.

Мы повторяем этот процесс до тех пор, пока не учтем все точки из нашей выборки. Обычно мы укладываем в 1024 (210) кластера миллионы точек (мы также работали с 2048 (211) и с 4096 (212) кластерами). Каждый кластер можно представить в виде единственного вектора, расположенного в геометрическом центре всех точек кластера. Таким образом, сумма расстояний от всех точек кластера до центральной точки минимальна.

В результате применения данного метода вместо миллионов точек, с которыми мы начинали работать, у нас остается всего 1024 точки, оптимальным образом распределенные в пространстве. Неиспользованные части пространства не принадлежат ни одному кластеру.

Далее мы нумеруем наши кластеры (в данном случае приписываем им номера от 0 до 1023). Этот номер является сокращенным, «квантованным» представлением кластера, вот почему данный метод называется методом векторного квантования. Любой новый входящий вектор будет характеризоваться номером кластера, центр которого расположен ближе всего к этому новому вектору.

Теперь мы можем рассчитать расстояние от центра каждого кластера до центра всех других кластеров. Тем самым мы получаем расстояние от этого нового входящего вектора (представленного квантованным значением — номером кластера, к которому новый вектор расположен ближе всего) до всех других кластеров. Поскольку все точки характеризуются только номерами ближайших кластеров, мы знаем расстояния между конкретной точкой и всеми другими возможными точками.

Я описал суть метода в применении к двумерным векторам, но работа с 16-мерными векторами осуществляется по совершенно аналогичной схеме. Мы выбираем векторы с 16 числами, соответствующими 16 различным частотным полосам, так что каждая точка в нашей системе располагается в 16-мерном пространстве. Нам трудно вообразить пространство, распространяющееся более чем в трех измерениях (ну максимум в четырех, если мы добавим шкалу времени), но у математиков нет таких ограничений.

Применение данного метода позволило нам решить четыре задачи. Во-первых, мы значительно понизили уровень сложности системы. Во-вторых, мы представили 16-мерные данные в виде одномерных. В-третьих, мы усовершенствовали свою способность находить инвариантные черты, поскольку выделяем те участки звукового пространства, которые содержат наибольшее количество информации. Большинство комбинаций частот является физически невозможным или очень маловероятным, поэтому нет смысла выделять одинаковое пространство для вероятных и маловероятных комбинаций входных сигналов. Этот метод позволяет ограничить набор данных равновероятными возможностями. Четвертое достижение заключается в том, что мы можем использовать одномерные распознающие модули, даже если исходные данные являются многомерными. Это самый эффективный подход к использованию имеющихся в настоящее время вычислительных ресурсов.

Чтение мыслей с помощью скрытых моделей Маркова

Метод векторного квантования позволил нам упростить данные таким образом, чтобы выделить ключевые признаки, но нам по-прежнему нужно было научиться представлять иерархию инвариантных признаков, чтобы оценивать

новую информацию.

В начале 1980-х гг., когда я уже занимался проблемой распознавания образов на протяжении почти 20 лет, я знал, что одномерное представление данных — самый мощный, эффективный и надежный способ получения инвариантных результатов. В то время мы мало знали о функционировании новой коры, но на основании своих исследований в области распознавания образов я предположил, что мозг, возможно, редуцирует многомерные данные (поступающие от глаз, ушей или кожи) до одномерных, особенно когда речь идет об иерархии понятий в новой коре.

Организация информации в речевых сигналах, как оказалось, представляет собой иерархию образов: каждый образ складывается из линейной последовательности элементов. Каждый элемент образа может быть составлен из образов более низкого порядка или представлять собой базовую единицу сигнала (соответствующую нашим с вами квантованным векторам).

Эта ситуация полностью соответствует модели новой коры, о которой я рассказывал ранее. Таким образом, человеческая речь является продуктом иерархической организации линейных образов. Если бы мы умели анализировать эти образы в мозге говорящего человека, мы могли бы просто сопоставлять каждое новое высказывание с образами в мозге и понимать, что же человек говорит. К сожалению, у нас нет прямого доступа к головному мозгу — мы имеем лишь то, что слышим. Конечно же, в этом и заключается весь смысл разговорной речи — человек передает в словах часть своих мыслей.

Я задал себе вопрос: нет ли какого-то математического метода, который помог бы нам анализировать образы в мозге говорящего человека на основании произнесенных слов? Одной фразы, конечно, было бы недостаточно, но если бы у нас имелся большой набор образцов, возможно, мы смогли бы использовать эту информацию для «прочтения» образов в новой коре говорящего человека (или хотя бы сформулировать математический эквивалент, который позволил бы нам распознавать новые словосочетания).

Часто люди недооценивают мощь математического аппарата; подумайте, ведь поиск самой разной информации за считаные секунды с помощью поисковых программ основан на математическом подходе. Так вот, когда в начале 1980-х гг. я занимался проблемой распознавания речи, оказалось, что для решения стоявших перед нами задач практически идеально подходит так называемый метод скрытых моделей Маркова. Русский математик Андрей Андреевич Марков (1856–1922) создал математическую теорию иерархических последовательностей состояний. Модель основана на возможности перехода из одного состояния в другое по цепочке; если переход совершается успешно, следующее состояние характеризуется более высоким уровнем иерархии. Вам это ничего не напоминает?

Простой пример одного слоя в скрытой модели Маркова. Символы от S1 до S4 обозначают «скрытые» состояния системы. Параметры переходов Pi,j соответствуют вероятности перехода из состояния S1 в состояние Sj. Эти вероятности определяются системой путем обучения на тренировочных данных и в рабочем порядке. Новая последовательность (например, новая последовательность звуков) соотносится со значениями Pi,j для определения вероятности воспроизведения моделью этой последовательности.

В модели Маркова учитываются вероятности переходов из каждого состояния в следующее. В ней рассматривается ситуация, когда система следует такой иерархической линейной цепи состояний, но их невозможно проанализировать напрямую — отсюда название «скрытые модели Маркова». На самом нижнем иерархическом уровне подаются сигналы, и это все, что мы можем видеть. Марков предложил математический метод расчета, показывающий, что вероятность каждого перехода должна быть основана на значении выходного сигнала. Этот метод в 1923 г. усовершенствовал знаменитый английский математик Норберт Винер (1894–1964). В результате стало возможным определять связь между звеньями в цепи Маркова; в частности, все связи, характеризующиеся очень низкой вероятностью, стали считаться несуществующими. Именно так действует и человеческая новая кора: если какие-то связи не используются или используются очень редко, они воспринимаются как маловероятные и со временем исчезают. В нашем случае наблюдаемым выходным сигналом является речевой сигнал, издаваемый говорящим человеком, а состояния в цепи Маркова и связи между ними описывают иерархическую организацию новой коры.