Звуки и знаки
Шрифт:
Свадеш составил список из двухсот пятнадцати слов, потом сократил его до сотни. Но почему, собственно говоря, до ста? А может быть, надо расширить этот список до пятисот? Проверка показала, что разные слова имеют разную устойчивость. Русский язык — индоевропейский, числительное три звучит в нем так же, как звучало оно в языке древних хеттов, как звучит оно в священном языке Индии — санскрите, сходным образом звучит оно и в английском, немецком и других индоевропейских языках. А вот понятие «мальчик» меняло свой словесный ярлык по нескольку раз чуть ли не в истории каждого языка. В древней Руси говорили отрок, а потомки древнерусского языка — русский, украинский и белорусский —
Вот почему современные лингвисты начинают проверять слова на их устойчивость в языке, степень сохранения того или иного слова в зависимости от понятия, которое оно обозначает. Более того, оказывается, что есть связь между частотой употребления слова и временем его возникновения в языке. Не так давно в нашей стране вышла книга «Математические методы в исторической лингвистике», авторы которой М. В. Арапов и М. М. Херц предложили математическую модель лингвистических часов, где работы Свадеша оказываются лишь частным случаем более общего метода.
По сравнению с методом Свадеша, «шаг вперед состоит здесь в том, что нет более необходимости требовать, чтобы скорость изменения словаря всегда была постоянной и им, ела одинаковое значение для различных языков, — пишут Арапов и Херц. — Таким образом, вместо списка слов, выражающих фиксированные, тщательно выбранные понятия, можно было бы взять случайно выбранный фрагмент словаря и проверять, имеют ли слова из него соответствия в родственном языке».
Формулы, найденные советскими учеными, показывают, что случайная выборка из словаря распадается точив так же, как и весь словарь. А это значит, что такая случайная выборка подходит для целей датирования не меньше, чем отобранная сложным методом сотня-другая слов. Иными словами, механизм лингвистических часов оказался и более прост, и более сложен, чем это представлялось его первооткрывателю Морису Свадешу.
Впрочем, такую простоту и одновременно сложность мы находим всякий раз, когда начинаем изучать язык с помощью статистики. Числа помогают лингвистам исследовать язык во всех его измерениях, начиная со слов и кончая субъективными ассоциациями, связанными со словами. Но за числами стоят, очевидно, какие-то закономерности, определяющие статистику.
Нельзя ли увидеть за фактами формулы? Вскрыть с помощью математики механизмы языка, порождающие все многообразие нашей речи?
От фактов к формулам
Статистические данные отражают в числах рост, убывание или стабильность различных элементов языка. Но они не вскрывают механизм процесса, его динамику. Вот почему в настоящее время языковеды, имея дело с числами, стараются строить на их основании математические модели, которые не только отражают динамику, но и позволяют делать прогнозы на будущее и «заглядывать» в прошлое, о котором нет достоверных данных. Вот несколько подобного рода моделей, предложенных ленинградскими лингвистами А. А. Пиотровской и Р. Г. Пиотровским.
В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радиан во множественном числе родительного падежа писались так: вольтов, рентгенов и т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген, совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.
Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольт встречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).
Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — со до + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t, где f — частота нулевых форм, а t — годы.
Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).
Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?
Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).
В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.
Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядя или словосочетание бубновый туз.