Компьютерная лексикография
Шрифт:
Введение
Современная языковая ситуация, и в частности потребности записи человеческого знания в память компьютера, в огромной степени изменили лексический мир языка. Можно считать, что здесь уже сложилась и развивается целая лингвистическая наука.
Компьютерная техника широко проникает в традиционную сферу лексикографии, то есть, в составление словарей, заменяя собой традиционную ручную картотеку и привнося новые методы и возможности в веками устанавливавшуюся технологию.
В области компьютерной лексикографии выделяют две основных проблемы, тесно связанных друг с другом: создание словарей, предназначенных для человека, и использование в интеллектуальных системах специальных машинных словарей естественных языков. Роль словаря в таких системах огромна – начиная с распознавания лексических единиц на уровне ввода и морфологического анализа и заканчивая моделированием элементов понимания и мышления.
Таким образом, в методологических
Возможности компьютера в традиционной лексикографии чрезвычайно велики, поскольку они избавляют лексикографа от огромного многолетнего труда по сбору, расписыванию на карточки и анализу лексического материала. Например, можно создать справочник, в котором все словники наиболее значительных словарей были бы объединены. Таким справочником является Сводный словник словарей русского языка (Рогожникова 1986: 58-67). С помощью такого словника можно решать большое количество разного рода теоретических и практических задач. Так, можно выявить наиболее употребительную лексику современного русского языка и отобрать ее в словари различных объемов. Это важно при составлении толковых словарей, общего и учебного типа, для отбора лексики в русскоязычные словари других типов и т.д.
Применение интерактивных методов позволяет исследователю-лингвисту использовать компьютер даже в тех случаях, когда какие-то языковые факты трудно или невозможно формализовать: при помощи диалога с компьютером появляется возможность найти достаточно обоснованные и приемлемые приблизительные решения.
Ю.Н. Марчук в своей работе «Вычислительная лексикография» (Марчук 1976: 83) определил основные отличия машинных словарей от обычных. Кратко говоря, эти отличия заключаются в следующем: если обычный, традиционный, «бумажный» словарь комплементарен к знаниям, имеющимся у человека-пользователя, т.е. он дает некоторую дополнительную информацию к той, которая у человека уже есть, то машинный словарь в функции информирования автономен, т.е. он должен содержать всю необходимую для «искусственного интеллекта» машины информацию. Машинный словарь в применении в автоматизированных системах не может рассчитывать на то, что компьютер располагает «фоновым» знанием, необходимым для пользования словарем.
Машинный словарь должен содержать всю информацию, необходимую для работы с данным словом. Всякая неопределенность, неоднозначность, и т.п. сохранятся в выдаче, если в алгоритме работы с текстом не будут предусмотрены соответствующие процедуры.
1. История развития лексикографии
Лексикография (греч. lexikos – 'относящийся к слову' и grajw – 'пишу') – это научная дисциплина, занимающаяся теорией и практикой составления словарей. Еще в рукописях XI века (на полях или в самом тексте) можно встретить пояснения непонятных слов, чаще всего иноязычных или вышедших из употребления. Эти пояснения назывались глоссами, а собрания глосс, так называемые глоссарии, представляли собой первые небольшие словарики. В древнерусской лексикографии возникло несколько типов словарей: 1) словари собственных имен, содержащие в основном имена, упоминаемые в Библии (ономастиконы); 2) словари, охватывающие слова со сложным символическим смыслом (приточники); 3) словари, толкующие непонятные (церковно-славянские) слова книжной речи – "Толкование неудобь познаваемом речем"; 4) первые переводные словари, например, "Речь тонкословия греческого". Затем в XVI-XVII вв. появляются более полные собрания слов, расположенных в строгом алфавитном порядке, – азбуковники. Первый печатный словарь ("Лексис" Лаврентия Зизания) вышел в Вильно в 1596 году. Постепенно возникает интерес не только к старинным иностранным и старославянским словам, но и к словам современных иностранных языков, – начинают выходить многочисленные переводные словари: русско-иноязычные, иноязычно-русские. К 30-м годам XVIII века уже ощущалась потребность в толковом словаре русского языка, и с учреждением Российской Академии наук началось составление толкового "Словаря Академии Российской". В XIX веке было создано множество словарей самого различного характера, что обеспечило прекрасные предпосылки для развития лексикографии в XX веке – поистине, веке лексикографии, поскольку никогда еще эта дисциплина не развивалась столь успешно1. Самая трудная часть работы историка-лексикографа – установление значения (семантики) слова. Для создания словаря необходимо провести отбор источников, анализ текстов, составление словников и словоуказателей, анализ словоупотреблений и т. д. Традиционно основой лексикографической технологии были рукописные картотеки (библиографические описания источников, цитат, словарных статей и т. п.). Благодаря чудовищной трудоемкости этой работы, помноженной на ответственность за ее результаты, словари часто называют по имени их создателя – Словарь Дашковой, Даля, Срезневского, Фасмера и т. д.2
2. Истоки компьютерной лексикографии
Компьютерная лексикография возникла сравнительно недавно, и сейчас это быстро развивающаяся отрасль компьютерной индустрии – ведь "ословаривание" научного знания является одним из основных современных способов его проявления и распространения. Компьютерная лексикография – это также и становящаяся прикладная научная дисциплина в языкознании (лингвистике). Она изучает методы использования компьютерной техники для составления словарей. Это – временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. Первые плоды развития этой дисциплины – встроенные в текстовые процессоры орфографические словари, а также многие другие информационно-программные продукты, активно использующиеся как в письменном, так и разговорном языковом творчестве.
Рассмотрим лишь один пример внедрения компьютерных технологий в современную лексикографию.
Один из самых значительных результатов русской исторической лексикографии – "Словарь русского языка XI-XVII вв." (далее: СлРЯ XI-XVII вв.). Работа над ним началась с создания "Картотеки древнерусского словаря" (так называемой Картотеки ДРС), где на рукописных карточках находятся выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и Словаря принято считать 1925 год, когда на Отделении русского языка и словесности Академии наук выступил академик А.И. Соболевский с докладом о необходимости подготовки материалов для "Словаря древнего и старого русского языка". Тогда же была создана Комиссия по собиранию словарных материалов по древнерусскому языку.
Написание Словаря, то есть лексикографическая обработка материала Картотеки длилась долго. Концепция Словаря менялась, объем его то сокращался, то увеличивался. В конце концов, первый выпуск Словаря (буквы "А" и "Б") появился в 1975 году, ни много ни мало через 50 лет после объявления о начале проекта! В текущем, 1999 году, вышел 24-й выпуск (буква "С"). Коллектив Словаря насчитывает сейчас десять человек (главный редактор – Галина Богатова). Этот словарь используется в первую очередь учеными – филологами, изучающими историю русского языка по древним памятникам письменности, и специалистами по истории культуры, нуждающимися в профессиональном академическом справочнике, – но не только ими. Мир полон любознательных людей, которые, употребляя в речи привычные выражения – бить баклуши, камень преткновения и т. д., иногда спрашивают себя: а что это значит? Мало кто знает, что дельфина, например, называли морской свиньей, а привычное наречие восвояси прежде представляло собой не одно, а три слова: во своя си, где своя означало 'дом, родина, место жительства'. Эти и многие другие объяснения содержатся в фундаментальном словаре-справочнике СлРЯ XI-XVII вв.
Лексикограф привык работать с книгами, рукописями, рукописными карточками. Он пишет сначала ручкой, а затем многократно перепечатывает написанное на машинке. Использование компьютеров в области лингвистики прежде не распространялось на сферу истории русского языка. Объяснялось это отсутствием массового интереса как к собственной истории в целом, так и к истории языка в частности, а также ограниченностью числа исследователей, потенциальных заказчиков и создателей исторических лексикографических информационно-программных изделий. Немалое значение имела и сложность работ по созданию этих изделий. Чего стоит, к примеру, проблема разработки шрифтов для "Этимологического словаря славянских языков", где приводятся формы из всех славянских языков. Графика, в том числе набор диакритических знаков, здесь настолько разнообразна, что практически каждый славянский язык нуждается в разработке собственного шрифта! Еще одна причина позднего подключения историков языка к использованию электронных методов обработки лексического материала – это старинная консервативность (впрочем, в хорошем смысле слова).
Первоначально появление компьютера в среде историков русского языка, – людей, которые не только являются носителями классических гуманитарных традиций, но и гордятся этим, а потому не желают от этих традиций отказываться, – вызвало ожесточенное сопротивление. Раздавались голоса, что компьютер "губит всякую духовность" и, главное, "не создает новое знание, а занимается его интерпретацией", в то время как "подлинные ценности создавались и создаются при помощи пера и бумаги". После некоторых колебаний, проб и ошибок, сопровождавшихся раздражением и негодованием ("Зачем нам это нужно?" "Нам это не нужно – мы все равно пишем Словарь по старинке…"), оказалось, что компьютер – отличная ручка, а заодно и пишущая машинка. Чуть позже компьютер стал еще и ножницами, кистью, клеем. А потом – микроиздательством, соединив в себе те функции, которые прежде осуществляли технические редакторы при подготовке рукописи Словаря в набор.
Конец ознакомительного фрагмента.