В поисках чуда (с илл.)
Шрифт:
Впрочем, дело не в богатстве лексикона. В житейских разговорах мы запросто обходимся несколькими сотнями слов. Если их список возрастет до 2500, то, как установили сотрудники Таллинского научно-исследовательского института педагогики, он покроет наши потребности в 80 случаях из 100. Остальные десятки тысяч русских слов гораздо менее употребительны и встречаются куда реже. Главное в другом.
Никому не известен психофизиологический механизм творческого процесса, благодаря которому переводчик расшифровывает чужеземные письмена и передает на своем языке заложенные в них мысли.
Машине же нужна исчерпывающая инструкция, предусматривающая каждый ее шаг.
Вся процедура автоматического перевода расчленяется на элементарные
Программа для «Стрелы» состояла из 17 сложно взаимосвязанных блоков (разделов), включавших 8500 команд. Целый устав! И преподробнейший. Тем не менее он давал правила поведения лишь в простейших ситуациях, да и то не во всех.
Вот, к примеру, омография, когда разные понятия записываются абсолютно одинаково: коса, лук, пол, нота, гол. Еще Троянский в своем механизированном словаре приводил все их толкования: скажем, коса может оказаться женской прической, песчаной отмелью, сельскохозяйственным орудием. То же явление свойственно и другим языкам. Нужный вариант должен был выбрать корректор. «Стрела» в подобных случаях печатала все русские значения французского омонима; оставить лишь одно, единственно нужное, отбросив остальные, она не умела. Вот если бы она понимала смысл фразы, сама чувствовала контекст, тогда другое дело, но…
«Электронный мозг» еще только учится этому искусству.
Сейчас автоматическим переводом и математической лингвистикой у нас занимаются сотни людей, десятки лабораторий и групп как в Москве (МГУ, ВИНИТИ, Математический институт имени В. А. Стеклова, Институт прикладной математики, Институт языкознания АН СССР, Центральный научно-исследовательский институт патентной информации, другие учреждения), так и в других городах — в Киеве, Новосибирске, Ленинграде, Тбилиси, Ереване, Горьком, Саратове, Ташкенте, Таллине…
Творец и робот в едином строю наступают на разбушевавшуюся стихию информации, отводя от здания науки далеко не мифическую угрозу.
«На всей земле был един язык и одно наречие» — так начинается ветхозаветное предание о пресловутом вавилонском столпотворении. Пока люди понимали друг друга, строительство якобы продвигалось настолько успешно, что доисторический небоскреб достиг колоссальных размеров. Это был вызов самому господу. Но всевышний сразу же смекнул, как пресечь предерзостное посягательство сынов человеческих на его престиж. Нет, он не наслал на возгордившихся своих рабов ни мор, ни потоп, ни пожар.
Просто он взял да и учинил разноязыкость.
Мешанина наречий тотчас разъединила тысячеликую семью строителей, посеяла бестолковщину, распри. И хоть Вавилонскую башню включили потом в список чудес света, представление о ней ассоциируется не столько с величественной монументальностью, символом людского могущества, сколько с беспомощностью, вызванной языковыми барьерами.
Языковая разобщенность давно уже мешает ученым. Особенно сейчас, когда выдвигаются и реализуются проекты, куда более грандиозные, нежели
Вавилонский «столп» и все чудеса древнего мира, вместе взятые. Проекты, которые требуют тесного международного сотрудничества и взаимопонимания.
Гигантские ускорители… Центры ядерных исследований… Трансконтинентальные энергетические, телевизионные, радиоастрономические системы… Глобальная сеть спутников связи или космических метеостанций…
Сверхглубокие скважины…
Без обмена информацией вообще немыслимо создание никаких технических «чудес» — ни сущих, ни грядущих.
«Нужно выработать радикально лучшее средство общения, — считает английский ученый-марксист профессор Джон Бернал, — особенно ныне, когда мир становится действующим научным и экономическим комплексом, в котором вавилонская мешанина языков является ужасающими путами».
Поможет ли робот создать «радикально лучшее средство общения»?
Специалисты осторожны в своих оценках.
«Достижения машинного перевода пока еще достаточно скромны, — признает академик Аксель Иванович Берг, председатель Научного совета по комплексной проблеме „Кибернетика“ АН СССР, — трудно ожидать серьезных, имеющих значение для практики результатов ранее чем через 8–10 лет».
Анализируя возникающие здесь трудности, профессор Колумбийского университета (США) Мортимер Таубе касается и экономического аспекта: «Кодирование печатного текста — дорогая операция. Даже самые пылкие машинопоклонники не отрицали, что автоматический перевод останется экономически невыгодным до тех пор, покуда не будет создано читающее устройство, способное автоматически преобразовывать печатный текст в последовательность отверстий на перфокартах или иной код, легко воспринимаемый машиной. Имеются читающие устройства, которым доступны шрифты стандартной формы и стандартного размера при строго определенном положении букв. Но никто еще не придумал устройства, способного правильно считывать любой шрифт».
Над технической задачей, о которой упоминает Таубе, много лет подряд бились ведущие кибернетики США (Оливер Селфридж, Фрэнк Розенблат) и других стран. Проблема оказалась не из легких.
Соотечественник Таубе, математик Уолтер Питтс, как-то заметил: «Даже определение абсолютно точных и строгих правил узнавания буквы А во всех видах, встречающихся хотя бы в печатном тексте, — грандиозная задача». И тут же выразил сомнение, что ее вообще удастся когда-нибудь решить.
7 февраля 1962 года собрание Академии наук заслушало доклад директора Института автоматики и телемеханики академика В. А. Трапезникова о работе советского ученого Э. М. Бравермана, предложившего весьма перспективный подход к проблеме.
Видеть букву, понимать дух!
Когда мы разглядываем какой-нибудь вензель, его изображение проецируется хрусталиком на глазное дно, которое похоже на соты — оно состоит из великого множества тесно примыкающих друг к другу клеток (палочек и колбочек). Каждый из этих зрительных рецепторов воспринимает лишь кусочек общей картины. Если ячейка оказалась затененной, от нее в мозг по нервному волокну идет иной сигнал, чем от незатененной.
Сетчатку можно моделировать мозаикой, составленной из фотоэлементов. Допустим, их 60 (это несравненно меньше, чем светочувствительных клеток на внутренней стенке глаза, но принципиальной разницы тут нет). И расположены они 10 горизонтальными рядами друг под другом, по 6 штук в каждом ряду. Получилась прямоугольная сетка. Представьте, что на нее упало изображение плоской черно-белой фигуры. Пятерка, не правда ли? Неказистая, но все же не тройка, не семерка, не иная цифра. Мы сразу узнали ее выразительный абрис. А вот машине надо втолковать: мол, данный орнамент есть не что иное, как «5». Пусть от темных участочков в электронный мозг по проводам тотчас понеслись импульсы.
Обозначим элемент, попавший в область тени, единицей, а освещенный — нулем. Обегая картинку слева направо и сверху вниз, развернем последовательность единиц и нулей в строку: 111111 100000 100000 111100 000010 000001 000001 000001 10010 111100.
Если на «сетчатке» машины появятся другие паркетажи, то и соответствующие им комбинации единиц и нулей (импульсов и пауз) будут иными. Каждое сочетание черных и белых клеточек описывается одним-единственным кодовым числом. Геометрически это интерпретируется так: любому из графических вариантов буквы или цифры отвечает только одна точка со своим, «персональным» набором координат (единиц и нулей). Все возможные начертания той же арабской «пятерки», славянского «буки» или иного образа составят целую семью точек, тесно сгрудившихся в некоем многомерном пространстве. Браверман высказал гипотезу, что каждое такое скопление компактно: оно расположено густой галактикой, не перекрывается соседней, даже не имеет выступов, глубоко вклинивающихся в чуждые пределы.