Чтение онлайн

на главную

Жанры

Шрифт:

Свадеш составил список из двухсот пятнадцати слов, потом сократил его до сотни. Но почему, собственно говоря, до ста? А может быть, надо расширить этот список до пятисот? Проверка показала, что разные слова имеют разную устойчивость. Русский язык — индоевропейский, числительное три звучит в нем так же, как звучало оно в языке древних хеттов, как звучит оно в священном языке Индии — санскрите, сходным образом звучит оно и в английском, немецком и других индоевропейских языках. А вот понятие «мальчик» меняло свой словесный ярлык по нескольку раз чуть ли не в истории каждого языка. В древней Руси говорили отрок, а потомки древнерусского языка — русский, украинский и белорусский —

сменили это слово. Русские вместо отрока говорят мальчик, а украинцы и белорусы — хлопчик.

Вот почему современные лингвисты начинают проверять слова на их устойчивость в языке, степень сохранения того или иного слова в зависимости от понятия, которое оно обозначает. Более того, оказывается, что есть связь между частотой употребления слова и временем его возникновения в языке. Не так давно в нашей стране вышла книга «Математические методы в исторической лингвистике», авторы которой М. В. Арапов и М. М. Херц предложили математическую модель лингвистических часов, где работы Свадеша оказываются лишь частным случаем более общего метода.

По сравнению с методом Свадеша, «шаг вперед состоит здесь в том, что нет более необходимости требовать, чтобы скорость изменения словаря всегда была постоянной и им, ела одинаковое значение для различных языков, — пишут Арапов и Херц. — Таким образом, вместо списка слов, выражающих фиксированные, тщательно выбранные понятия, можно было бы взять случайно выбранный фрагмент словаря и проверять, имеют ли слова из него соответствия в родственном языке».

Формулы, найденные советскими учеными, показывают, что случайная выборка из словаря распадается точив так же, как и весь словарь. А это значит, что такая случайная выборка подходит для целей датирования не меньше, чем отобранная сложным методом сотня-другая слов. Иными словами, механизм лингвистических часов оказался и более прост, и более сложен, чем это представлялось его первооткрывателю Морису Свадешу.

Впрочем, такую простоту и одновременно сложность мы находим всякий раз, когда начинаем изучать язык с помощью статистики. Числа помогают лингвистам исследовать язык во всех его измерениях, начиная со слов и кончая субъективными ассоциациями, связанными со словами. Но за числами стоят, очевидно, какие-то закономерности, определяющие статистику.

Нельзя ли увидеть за фактами формулы? Вскрыть с помощью математики механизмы языка, порождающие все многообразие нашей речи?

От фактов к формулам

Статистические данные отражают в числах рост, убывание или стабильность различных элементов языка. Но они не вскрывают механизм процесса, его динамику. Вот почему в настоящее время языковеды, имея дело с числами, стараются строить на их основании математические модели, которые не только отражают динамику, но и позволяют делать прогнозы на будущее и «заглядывать» в прошлое, о котором нет достоверных данных. Вот несколько подобного рода моделей, предложенных ленинградскими лингвистами А. А. Пиотровской и Р. Г. Пиотровским.

В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радиан во множественном числе родительного падежа писались так: вольтов, рентгенов и т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген, совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.

Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольт встречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).

Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — со до + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t, где f — частота нулевых форм, а t — годы.

Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).

Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?

Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).

В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.

Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядя или словосочетание бубновый туз.

Поделиться:
Популярные книги

Кодекс Охотника. Книга XV

Винокуров Юрий
15. Кодекс Охотника
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XV

Идеальный мир для Лекаря 14

Сапфир Олег
14. Лекарь
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 14

Внешники такие разные

Кожевников Павел
Вселенная S-T-I-K-S
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Внешники такие разные

Жандарм 2

Семин Никита
2. Жандарм
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Жандарм 2

На границе империй. Том 7. Часть 2

INDIGO
8. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
6.13
рейтинг книги
На границе империй. Том 7. Часть 2

Уязвимость

Рам Янка
Любовные романы:
современные любовные романы
7.44
рейтинг книги
Уязвимость

Штуцер и тесак

Дроздов Анатолий Федорович
1. Штуцер и тесак
Фантастика:
боевая фантастика
альтернативная история
8.78
рейтинг книги
Штуцер и тесак

Прометей: каменный век II

Рави Ивар
2. Прометей
Фантастика:
альтернативная история
7.40
рейтинг книги
Прометей: каменный век II

В теле пацана 6

Павлов Игорь Васильевич
6. Великое плато Вита
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
В теле пацана 6

Идущий в тени 4

Амврелий Марк
4. Идущий в тени
Фантастика:
боевая фантастика
6.58
рейтинг книги
Идущий в тени 4

Идеальный мир для Социопата 3

Сапфир Олег
3. Социопат
Фантастика:
боевая фантастика
6.17
рейтинг книги
Идеальный мир для Социопата 3

Купидон с топором

Юнина Наталья
Любовные романы:
современные любовные романы
7.67
рейтинг книги
Купидон с топором

Барон нарушает правила

Ренгач Евгений
3. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон нарушает правила

Дочь моего друга

Тоцка Тала
2. Айдаровы
Любовные романы:
современные любовные романы
эро литература
5.00
рейтинг книги
Дочь моего друга