Диалог с компьютером
Шрифт:
Создается впечатление, что в рассказе об осгудовском измерении значения получилось, как в известном анекдоте:
— Правда ли, что Том выиграл в лотерею «понтиак»?
— Да, правда. Только не Том, а Тим. И не «понтиак», а «кадиллак». И не в лотерею, а в карты. И не выиграл, а проиграл.
Но все-таки это не совсем так. Качественный ореол значения слова Ч. Осгуд действительно измерил, только геометрическое представление результатов измерений оказалось не совсем удачным. Во всяком случае, для компьютера.
Поэтому Н. Павлюк, обнаружив четвертую меру семантического пространства и убедившись в невозможности
Есть такая настольная игра. На игровом поле установлены разные отражатели, стенки, барьерчики, ловушки. Один или несколько шариков выскакивают на поле и движутся по нему, отражаясь от препятствий, застревая в ловушках. В конце концов шарики собираются в разных частях поля, в зависимости от чего играющими начисляются очки. Придуманный Н. Павлюком автоматический классификатор похож на эту игру. Посмотрите на рисунок.
Представьте себе, что в верхнюю воронку засыпаются слова, которые распределяются по трубам этого сортировочного устройства в зависимости от наличия тех или иных характеристик. Сначала они попадают на первый уровень, где «хорошие» слова направляются налево, «плохие» — направо, а «никакие» — прямо. Теперь каждая из трех групп попадает на второй уровень. Там снова происходит сортировка: «хорошие и сильные» — направо, «хорошие и слабые» — налево, «хорошие и никакие» — прямо. Поскольку каждая из трех групп первого уровня делится еще на три группы, то групп уже получается 9. Затем третий уровень, где каждая из 9 групп делится еще на 3 в зависимости от «активности» слов. Групп уже 27. Четвертый уровень делит слова по признакам «мужественное — женственное», и групп становится 81.
Если остановиться на этих четырех уровнях, то в «осгудовских представлениях» мы получим группировку слов в четырехмерном качественно-признаковом пространстве, то есть как бы разрежем облака тумана на четко разграниченные зоны.
А компьютеру только того и нужно. Теперь он легко разложит по полочкам наши зыбкие и неопределенные представления о качественных ореолах слов. Скажем, попадают в компьютерный классификатор слова автомобиль и лягушка. Компьютер проверяет их оценки по шкале «хорошее — плохое»: автомобиль — 1,9, лягушка — 4,2. Компьютеру ясно — автомобиль нужно направить в «хорошую» группу, а лягушку в «плохую». Далее проверяются оценки по шкале «сильное — слабое», и автомобиль попадает в «хорошую и сильную» группу, лягушка — в «плохую и слабую», так как по этой шкале автомобиль имеет оценку 1,8, а лягушка — 4,3. Затем, пройдя шкалы третьего и четвертого уровней («быстрое — медленное», «мужественное — женственное»), автомобиль оказывается в «хорошей, сильной, быстрой, мужественной» группе, лягушка — в «плохой, слабой, медленной, женственной».
Четыре уровня сортировки минимально необходимы, иначе качественный ореол не будет охвачен полностью. Но останавливаться на четвертом уровне не обязательно. Добавляя к автоматическому классификатору все новые и новые шкалы-уровни, мы обучаем компьютер все более тонким оттенкам качественно-ореольной семантики. Понятно, что с увеличением числа уровней сортировки будет увеличиваться число групп «на выходе» классификатора и группы будут все более дробными. А слова, в них попавшие, будут все теснее объединяться
Четырехуровневый компьютерный классификатор исправно работает и формирует группы слов на удивление «осмысленно». Ничто не мешает подключить к нему новые шкалы и сортировать новые порции слов. Но вот беда: лингвисты уже 30 лет гадают, куда «приплыл» Ч. Осгуд — в Индию или в Америку, да все прикидывают, нужны ли нам такие измерения. А словаря качественных ореолов русских слов все нет. Классификатор есть, и работает хорошо, а классифицировать нечего. До сих пор всего несколько исследователей ведут измерения русских слов — это в основном А. Клименко, В. Петренко, А. Павлюк. Измерено несколько сотен слов, но главным образом по трем-четырем основным шкалам. А ведь нужно измерить десятки тысяч слов, да и шкал набрать побольше. Работа эта ведется, но столь малыми силами, что результатов придется ждать еще долго.
Многоуровневый классификатор будет иметь огромное число выходов. Так, при десяти уровнях количество классификационных групп приближается к 20 тысячам. Но это лишь теоретически возможные группы. На практике большое число выходов окажутся пустыми, то есть на этих выходах не будет не только групп, но и ни одного слова. А на других выходах классификатора соберутся группы, включающие множество слов. Кстати сказать, интересен и сам этот результат. Ведь если на каком-то выходе образовалась большая группа слов, значит, такая комбинация признаков очень важна для нас, а если выход пустой — это свидетельство несовместимости признаков или ненужности такой их комбинации.
Возникает еще вот какой вопрос: как быть со словами внутри групп, как разобраться в них компьютеру? Не окажутся ли они для него все на одно лицо? Ведь на первый взгляд кажется, что в группах слова перемешаны без какой-либо системы, как бы свалены в какую-то ячейку пространства «навалом». Это впечатление обманчиво. Во-первых, для более дробного деления групп компьютер всегда может подключать новые шкалы-уровни. Во-вторых, если некая группа слов не будет поддаваться такому способу дробления, а компьютеру все же нужно как-то упорядочить слова внутри ее, он всегда может обратиться к исходным данным — к средним оценкам слов по любому из нужных в данный момент признаков.
Например, если в четырехуровневом классификаторе слова корабль, автомобиль, самолет объединились в группу, оказавшись «хорошими, сильными, быстрыми, мужественными», то легко можно сравнить их между собой по какому-либо признаку, ранжируя их средние оценки. Скажем, по признаку «быстрое» они располагаются в зависимости от средних оценок так: самолет (1,8), автомобиль (2,2), корабль (2,4). Отсюда компьютер сделает вывод, что «нечто самое быстрое» среди этих слов — самолет, а «самое медленное» — корабль. По признаку «большое» расположение будет другим: корабль, самолет, автомобиль. Такое сравнение можно провести и по любому другому признаку, включенному в классификатор.
Качественный классификатор справляется и со словами, имеющими двойную оценку, и даже с «размытыми» по всей шкале — такие слова просто попадут одновременно на несколько выходов классификатора.
Например, слово регби по шкале «хорошее — плохое» имеет двойную оценку (и «хорошее» и «плохое»). Для классификатора не нужно вычислять среднюю оценку (все равно она будет фиктивной), вместо этого слову приписывается индекс (например, Д), который будет означать, что слово необходимо направить и на «хороший», и на «плохой» выходы. Попав на «хороший» выход, регби окажется в одной группе со словами игра, футбол, забава, спорт и т. п. На «плохом» выходе у того же слова окажутся другие соседи: грубость, драка, свалка, потасовка и т. п.