Шрифт:
Анатолий Анисимов
Компьютерная лингвистика для всех: Мифы.Алгоритмы.Язык
На основе алгоритмического анализа исследуются литературное творчество, структуры естественного языка и мышление человека. Системный подход применяется для анализа мифов, лингвистических схем, снов, предложений и Систем искусственного интеллекта. Особое внимание уделяется рекурсии как специальному алгоритмическому способу организации сложных систем. Рассматриваются примеры рекурсии в литературе, языке, в формировании психической деятельности человека. Для широкого круга читателей, интересующихся современными достижениями информатики, лингвистики и искусственного интеллекта.
ОГЛАВЛЕНИЕ
От автора
1. Алгоритмы и мир.
Начало 5
Алгоритмы 7
Компьютерная лингвистика 10
2. Мифы
Миф как система 13
Охотник и его жертва. Комментарии к историям Борхеса 18
Царь Эдип 38
3. Аксиоматический разум
Одни глаголы 45
О богах, душе, указателях и абстракции 52
Царевна-лягушка и закон устойчивости 61
Логика сказки 67
4. Парадоксы языка
Лжец 75
За пределом 83
Мифы и роботы 86
5. Зеркало мира
Магия слов 98
Ассоциативный разум 104
Маленькие пьесы для электрической машины 109
6. Вариации на тему снов
Жизнь - сон 118
Зеркала Андрея Тарковского 128
Компьютерные сны 134
Последний сон китайского императора. Домашнее упражнение на предыдущую тему 145
Внезапная смерть новорожденных во сне. Алгоритмический подход 150
7. Язык
Рекурсия в сюжете 156
Модель мира 160
Диалоги 165
В этих грустных краях... Психолингвистика рекурсии 171
Древние, древние времена 178
Структуры языка 182
Река времени 198
Эта книга - независимое продолжение предыдущего рассказа об алгоритмах и творчестве. На этот раз речь пойдет о языке и его алгоритмах. В начале было слово... Почему так? Когда-то язык был слабым отражением вещей в сознании человека, прозрачной зыбкой гранью, отделяющей человека от мира неживой материи. Сейчас язык развился настолько, что сам проявляет тенденцию к независимому движению и управляет развитием разума. Он сконцентрировал в себе все тайны Вселенной, в нем скрыты ответы на извечные вопросы бытия. Проникновение в эти тайны - такая же трудная, но увлекательная задача, как познание тайн микромира и космоса. Язык - самое древнее и самое загадочное
=====================================================
(1) Анисимов А. В. Информатика. Творчество. Рекурсия.- Киев: Наук. думка, 1988.- 223 с.
=====================================================
* 1. АЛГОРИТМЫ И МИР
Мы - дети хаоса, и глубоко в основе каждого изменения скрыт распад. Изначально существует только процесс рассеяния, деградации; все захлестывают волны хаоса, не имеющего причин и объяснений. В этом процессе отсутствует какая-либо изначальная цель, в нем есть только непрерывное движение. Однако, как мы убедились, и в этом движении возможны различные направления, выбор которых диктуется случаем.
П. Эткинс. Порядок и беспорядок в природе
НАЧАЛО
Существует Вселенная, существует человек, объясняющий мир, выражающий эти объяснения колебаниями звука, жестами или письменными знаками. В вечном движении мира действуют свои закономерности, отражающиеся в языке. Поэтому, исследуя структуры языка, человек познает законы мира. Кроме числовых количественных соотношений, изучаемых математикой, в природе существуют универсальные правила, относящиеся к динамической структуре изменений и превращении материи. Они невыразимы количественными соотношениями описываемыми математическими формулами. Это законы развития и взаимодействия, они демонстрируются в языках искусства, в литературе, музыке, живописи. Поиск строгих формальных выразительных средств для выражения и изучения законов развития и взаимодействия начался в давние времена. Об этом думали и Пифагор, потрясенный несоизмеримостью диагонали и сторон квадрата, и Платон, построивший теорию диалогического взаимодействия для поиска истинных суждений, и молодой Галуа, в ночь накануне смертельной дуэли доказавший невозможность решения общих полиномиальных уравнений в радикалах, и Эйнштейн, искавший законы взаимодействия гравитации и вещества. Философы и математики, заметив одинаковые законы развития разнообразных объектов, предложили общее понятие - сложная система. Система - это структурно организованный объект, в котором выделяются состояния, переходы, подструктуры и взаимодействия частей. Системный подход дает возможность анализировать многие сложные объекты с позиций единой общей методологии. Наконец, в 30-е годы нашего столетия логики изобрели математическую теорию алгоритмов. Алгоритм - это сложная информационная система вместе с заданными правилами функционирования. В каждый момент, зная текущее состояние системы, ее правила и доступную ей информацию, можно предсказать множество ее возможных последующих изменений. Одно из важнейших понятий теории алгоритмов - рекурсия. Под рекурсией в общем смысле понимают такой способ организации системы, при котором она в отдельные моменты своего развития, определяемые ее правилами, может создавать (вызывать) собственные измененные копии, взаимодействовать с ними и включать их в свою структуру. Законы изменения копий при вызове также включаются в правила системы и могут зависеть от многих параметров: от состояния системы и других подсистем в момент вызова копии, от информационного наполнения заданных параметров, от правил самой системы. Возможно отсутствие изменения при вызове копии - чистая рекусия (это частный случай). Существует многообразие вариантов поведения копий; они могут существовать и развиваться параллельно с главной системой, исчезать после окончания своего этапа функционирования, по-разному взаимодействовать между собой. Все определяется правилами системы. Рекурсия - важнейшее фундаментальное понятие теории алгоритмов. В этой теории было доказано, что, используя рекурсию, можно из ограниченного количества функциональных единиц получить все многообразие вычислимых функций. Но не математики на самом деле открыли общий принцип рекурсии. Еще в древнейших религиях находим рекурсивные определения богов, а рекурсивные приемы для описания развития встречались во многих древних текстах. Объективный закон рекурсивного развития мира сначала выражался в текстах и только затем, много веков спустя, проявился в теорему алгоритмов. С появлением в конце 40-х годов компьютеров и становлением программирования интерес к рекурсии только усилился. Рекурсивные процедуры и декларативные определения введены в большинство современных языков программирования. Это понятие хорошо известно программистам. Обогатившись в теории алгоритмов и программировании, став привычным методом анализа и синтеза сложных алгоритмических систем, рекурсия возвращается в мир, где она впервые была замечена и всегда существовала, даже неузнанная. Но теперь в ее багаже - мощные развитые алгоритмические методы, теперь она на виду. Оказалось, что язык рекурсивен. Из базового ограниченного набора схем, мифов и сказаний рекурсивным способом получаются все сложные сюжетные построения современных авторов. Анализ предложений показывает, что здесь рекурсия проявляется еще более убедительным способом. Она определяет вложенность комментирующих частей к различным частям предложения. Педложение, остававшееся до сих пор филологической загадкой, получает алгоритмическое определение, и сразу становятся ясными многие проблемные факты традиционного синтаксиса. Рекурсивные машины начинают учиться говорить и понимать язык. Так закон рекурсивного развития мира сначала отразился в древних текстах, затем в литературе и только после этого получил математическое воплощение в теории алгоритмов и программировании. Потом снова произошло обратное отражение. Рекурсия определяет развитие литературы, дает возможность целенаправленно создавать сложные психологические тексты. Начинается игра усиливающихся отражений - любимая игра Вселенной. Когда-то и разум возник из такой игры.
АЛГОРИТМЫ
Любое целенаправленное действие сложной системы связано с понятием алгоритма. Он определяет последовательность действий объекта для достижения цели. Так, первобытные охотники придумывали алгоритмы охоты на зверей и на соседние племена, а их жены изобретали первые кулинарные рецепты - тоже алгоритмы. Алгоритмы повседневной жизни человека отличаются неоднозначностью выбора ходов, расплывчатостью принятия решений, неоптимальностью исполнения. Это действие системы в ситуации с неполной информацией. Когда все ясно, человек целенаправленно действует наиболее рациональным образом - по кратчайшей прямой стремится пересечь местность, выбирает лучшее из возможного. Познание всегда искало способы описания алгоритмов. Сохранились древние магические рецепты, математические тексты, книги боевого искусства, где описывались приемы действий в тех или иных ситуациях. В математической теории алгоритмов существует большое разнообразие определений алгоритма, ориентированных на различные способы вычислительной реализации: арифметическое исчисление предикатов (К. Гедель, 1931), ?-определимые (А. Черч, 1936) и частично-рекурсивные (С. Клини, 1936) функции, машины Поста и Тьюринга (Э. Пост, 1936, А. Тьюринг, 1937), алгоритмы Маркова (А. А. Марков, 1951). Все эти определения выражали формально интуитивное понятие вычислимости. Как сразу было доказано, различные определения алгоритма оказались эквивалентными в смысле возможности моделирования друг друга. Математические определения алгоритма ориентированы на строгие доказательства возможности тех или иных вычислений. В силу этого в их определениях используют специфические мелкомасштабные базовые операции и специальные строгие правила организации вычислений. В реальной работе человеку удобнее применять широкий арсенал гибких адекватных средств для записи вычислений. Этим занимается программирование. Появилось множество языков программирования для записи алгоритмов. Компьютерная программа тоже представляет собой алгоритм, но записанный на специальном языке, понятном машине. Такое понимание обеспечивается аппаратными или программными средствами, реализованными в ЭВМ и входящими в состав "мозга" ЭВМ: операционные системы, трансляторы, компиляторы, интерпретаторы, драйверы и др. Таким образом, даже в строгом определении алгоритм имеет множество выражений, зависящих от языка, на котором он записан. Поэтому часто алгоритмическая система поднимается как система, связывающая некоторые подсистемы в базовом, возможно, неопределяемом выбираемом языке, но с указанными точными средствами взаимодействия и развития. При исследовании сложных систем, созданных природой или человеком, применяют метод моделирования. Модель, обычно представляющая собой программу в том или ином алгоритмическом языке и отражающая основные особенности поведения системы, просчитывается на ЭВМ. Этим достигается большая степень понимания исследуемого объекта. Например, сейчас интенсивно разрабатываются и исследуются модели атомных электростанций с целью правильного управления, не допускающего аварийной ситуации. Моделируются физические процессы, происходящие на солнце, в галактиках и атомном ядре. Моделируются экономические, технологические, управленческие процессы и многие-многие другие. Иногда необходимая логическая строгость машинных средств выражения алгоритмов вступает в противоречие с принципами функционирования изучаемого объекта. Поэтому исследователям часто приходится специально вводить разнообразные средства, имитирующие неопределенность: нечеткие множества, датчики псевдослучайных чисел, недетерминированный выбор в условных командах и т. п. Иногда невозможно создать точную модель изучаемого объекта, но удается заметить общие принципы организации этих объектов. Такое мы наблюдаем при исследовании творчества. В литературных произведениях выявляются замкнутые взаимодействующие процессы. Способ их организации отражает те или иные алгоритмические принципы. Такое знание уже многое дает для понимания произведения, хотя, конечно, точное выражение самих процессов сведется к записи их на естественном языке. Аналогично в музыке, живописи и других жанрах искусства - сюжетная система (текст, картина, музыкалное произведение) в этих случаях составляется из некоторых неуточняемых базовых объектов. Выявляется внешняя организация этих объектов, их взаимодействие между собой. При необходимости этот же принцип может применяться для анализа составляющих элементов системы, вплоть до неделимых объектов. Алгоритмический анализ оказывается удивительно мощным средством познания и подтверждает единство выражения мира как средствами технических, так и гуманитарных наук. Оказывается, что в природе и творчестве действуют одни и те же алгоритмические принципы. Их выявление и уточнение - наша задача.
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА
Человек придумал электронные устройства, облегчающие арифметический счет. Вскоре обнаружилось, что эти машины можно легко приспособить для решения многих творческих задач, связанных с человеческим знанием. Накапливались факты, писались специальные компьютерные программы, изобретались искусственные языки обработки знаний. Этот процесс привел к становлению новой науки, названной "искусственный интеллект". В наше время многие теоретические исследования по искусственному интеллекту получили практическое применение. Роботы осуществляют точные механические операции, распознают образы, ведут поиск в сложных условиях, сочиняют стихи. В классификации наук США работы по искусственному интеллекту из разряда теоретических переведены в разряд прикладных наук. Одна из главных проблем искусственного интеллекта - компьютерное понимание естественного языка. Эта проблема относится к области компьютерной лингвистики. Компьютерная лингвистика занимается поиском алгоритмов и компьютерной реализацией взаимодействия человека с ЭВМ на естественном человеческом языке. В свою очередь ЭВМ может управлять другими машинными устройствами. Поэтому в случае успешной реализации проектов компьютерной лингвистики человек сможет управлять сложными техническими объектами посредством голосовых команд или текстов на естественном языке. Мир человека, мир слов и мир техники сольются. Сейчас коммерчески доступен большой ряд программных систем взаимодействия на естественном языке с базами данных и экспертными системами. Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ. В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985 г. корпорация "Семантек" представила такой пакет программ QA, компания "Карнеги Группа" предложила аналогичный пакет Language Craft. Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974-1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполло - Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно. В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европеиской Инормационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой - разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов. В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г. Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы десятилетней программы, поинятой министерством обороны в 1983 г. Цель ее создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США. Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии. В разных центрах мира специалисты по компьютерам начали изучать мифологию, труды Платона, Гегеля, Канта, Кьеркегора, Хайдеггера, М. Фуко и многих других классиков философской мысли. Проблема понимания языка машинами привела к вечной теме феномена человека. Кто мы? Откуда мы? Куда идем?
* 2. МИФЫ
...Это и есть цель и смысл нашего пребывания на земле: мыслить и искать и вслушиваться в дальние исчезнувшие звуки, так как за ними лежит наша истинная родина.
Г. Гессе. Ирис
МИФ КАК СИСТЕМА
Человек всегда стремился познать истоки своего бытия, пытался понять свой путь, найти начало начал. Почему "в начале было слово", почему по всему миру повторяются сходные предания, почему в этом повторяющемся мире возникают все новые и новые литературные формы и зтому процессу не видно конца. Не одно поколение поэтов, философов, ученых мысленно прокладывало путь назад, в прошлое. Каждый достиг своего предела, но так и не увидел конца. Чем старше человечество, тем в большую бездну времени удается заглянуть. Двигаясь в будущее, мы движемся в прошлое. И нет предела. И вновь мы вступаем на древний путь, рискуя увидеть лишь смутные, забытые, но все-таки - новые тени... В страну мифов открыты ворота, но это и лабиринт, войдя в который, можно всю жизнь блуждать по затерянным тропам прошедшего времени. И все же путь этот манит, как манит странника далекий свет в ночной темноте. Древнегреческие философы много внимания уделяли мифам, ссылаясь на них как на примеры для подтверждения правильности своих систем понимания мира. Аристотель в "Поэтике" одним из первых выделил основные общие схемы построения трагедийных мифов. Он установил законы персонажей мифа ИИИили подобной родству близостью. Аристотель ввел понятие фабулы как линии сюжетного развития. В фабуле трагедий он выделяет три части: перипетия перемена событий к противоположному, узнавание - переход от незнания к знанию, и страдание - действие, причиняющее гибель или боль. Аристотель рассматривает древнегреческие трагедии как поэтическую переработку древних мифов с сохранением их сюжетной линии. Поэтому его анализ структуры трагедий переносится на мифы. В последующие века в научном изучении мифов наступил длительный застой. Но мифы не прекратили своего существования. Они перекочевали в библейские предания, сюжеты картин и народный фольклор. И только в начале нынешнего века наступил переломный момент. Появились исследователи, сумевшие собрать и обобщить огромный фактический материал. Стала проясняться схема представлений древнего человека, зафиксированная в дошедших до нас сказаниях. Английские этнографы Э. Б. Тайлор (1832 - 1917) и Дж. Фрэзер (1854 - 1941) проанализировали и классифицировали тысячи мифов, ритуалов и обычаев народов разных стран, В 60-е годы нашего столетия сформировалось научное направление исследования культурных систем, в частности языка, названное структурализмом. В основу его легли новые для того времени методологические приемы исследований: раскрытие системы не только через классификацию ее элементов, но главным образом через установление и изучение отношений элементов, их взаимодействия, инвариантов относительно преобразований. Методы были заимствованы из структурной лингвистики. Смысл имеют не просто звуки или символы языка, а структура их соединений друг с другом. Один из основоположников стуктурного анализа французский ученый К. Леви Стосс, изучив многочисленные мифы племен Южной Америки, пришел к выводу, что их сюжетные схемы отличаются внутренней устойчивостью, не изменяются под влиянием социальных инфраструктур - т. е. мифы отражают схемы мышления первобытного человека. Это дало ему возможность реконструировать некоторые духовные структуры первобытных племен, обнаружить доисторическую логику в действиях древних людей. Стало ясным, что мифы имеют онтологическое значение, в них скрыты базисные структуры мысли. Значительный вклад в мировую структурную мифологию внесли советские ученые Я. Э. Голосовкер, В. Я. Пропп, О. М. Фрейденберг, А. Ф. Лосев, А. А. Тахо-Годи, Е. М. Мелетинский, С. С. Аверинцев. Основной метод, применяемый в мифологических исследованиях, состоит в получении общего факта на основании сопоставительного анализа многочисленных примеров. Чем больше примеров, тем лучше, тем достовернее вывод. Это индуктивный прием. Например, Тайлор обосновал безусловно верный факт одушевления объектов и явлений природы первобытными людьми. Эту особенность мышления он назвал анимизмом (от латинского anima - дух,душа). Ученыи подтверждает свой вывод следующими рассуждениями. Мифы возникли в период дикости, через который прошло все человечество. Значит, в них должна быть зафиксирована информация по интересующему нас вопросу. Надо только выбрать подлинные архаичные предания, отличая их от напластований более позднего времени. Далее идут многочисленные подробные факты, заимствованные из мифов разных народов. Среди примеров: наказание дерева, если с него упал человек; наказание предметов, случайно причинивших боль; брак солнца и луны; пожирание звезд солнцем; пожирание солнца драконом; звезда, говорящая с индейцем; ветер в виде дракона; смерть и чума в виде карающего ангела; превращения людей в животных и т. п. (2) Аналогично размышляли и другие исследователи. Например, Фрэзер проанализировал довольно запутанный древний обряд скрепления клятвы прохождением через части рассеченного тела животных, а иногда и людей. В книге Бытия бог повелел Аврааму разрезать на части домашних животных и птиц, а потом ночью прошел между ними; у греков есть выражение "резать договор", что означает
=====================================================
(2) Тайлор Э. Б. Первобытная культура.- М. Политиздат, 1989.- 573 с.
=====================================================
"скреплять договор"; защитники Трои клялись в верности Приаму, проходя между частями разрезанного борова; скифы клялись в верности, стоя правой ногой на шкуре убитого вола и поедая при этом кусок его мяса. Всего Фрэзер приводит 40 примеров, подтверждающих универсальный характер процедуры совершения такой клятвы. (3) В. Я. Пропп в "Мифологии сказки" на примере анализа 100 так называемых русских волшебных сказок установил, что последовательность функций действующих лиц во всех сказках всегда одинакова. Сто сказок исследователь считает более чем достаточным контрольным количеством, хотя полагает, что можно было бы рассмотреть и все сказки из известного сборника Афанасьева (это неявно предлагается выполнить сомневающемуся читателю). (4) Подобных примеров можно привести множество. Достаточно раскрыть любой сборник или книгу, посвященную мифологии. Факты убеждают. Но остается главный вопрос: почему было так? Существует другой, более строгий дедуктивный путь. Поскольку мифы отражают способ представления мира древними людьми, достаточно установить модель такого представления, хотя бы в тех общих чертах, которые с определенной степеныо уверенности можно обосновать. Затем с помощью логических заключений, как теоремы в математике, получать как следствия факты, объясняюшие тот или иной феномен древней жизни. Миф предстает как система со своими законами и следствиями. Такой подход обычно исторически возникает только после фазы классификации и накопления сведений. Совершается качественный скачок, и начинается новый этап исследований. При изучении особенностей древнего мышления предпочтительнее выбрать такой аксиоматический путь. При таком подходе многие запутанные вопросы получают логическое объяснение, а многочисленные усилия по объяснению тех или иных феноменов сознания сосредоточиваются только на обосновании выбранных базовых законов. Конечно, надо отдавать себе отчет в том, что постулируемые аксиомы заведомо не полны в том смысле, что не любой мифологический или ритуальный факт может быть выведен из них. Например, в этой книге мы не уделяем должного внимания законам, относящимся к области воспроизведения потомства. Очевидно, что многие побудительные мотивы манифестации сознания тесно связаны с этой сферой. Система аксиом должна быть пополняемой. Но здесь нужна осторожность при выборе новых постулатов. Необходимо следовать известному философскому принципу, получившему название "бритва Оккаяма": не приумножай сущности сверх надобности.