Чтение онлайн

на главную

Жанры

Шрифт:

Около девяти тысяч слов встретилось в текстах десять и более раз. Слова эти составляют менее четверти всего словаря. Зато покрывают они более девяноста процентов текста. Остальные же тридцать тысяч слов не покрывают и восьми процентов всех текстов. Очевидно, заучивать эти тридцать тысяч слов нецелесообразно. Знание же слов с частотой «десять» и более позволит понимать практически весь текст.

Может быть, и в списке слов, имеющих частоты «десять» и выше, также можно сделать сокращения? Первая тысяча слов частотного словаря, будь то русский, испанский, английский, французский, немецкий или любой другой язык, покрывает значительную часть текста, Какую — зависит не только и не столько от

конкретного языка, сколько от стиля, типа речи.

В английском языке тысяча самых употребительных слов покрывает около семидесяти процентов литературных текстов и свыше восьмидесяти процентов — научных. Во французском языке та же тысяча самых частых слов покрывает около восьмидесяти процентов литературных текстов и свыше девяноста — разговорной речи.

Но какими бы ни были вариации, ясно, что чем больше мы будем удаляться от «верхушки» частотного словаря, тем больше понадобится нам различных слов для покрытия (а стало быть, и перевода) текста.

Возьмем французский язык. Первая тысяча слов дала возможность покрыть свыше девяноста процентов разговорной речи. Но если мы добавим еще тысячу слов, то прирост будет равен всего четырем процентам. А следующие три тысячи слов увеличат покрываемость текста немногим более трех процентов.

Примерно та же картина получится, если мы возьмем другие языки или другие стили. В среднем первая тысяча самых частых слов покрывает около восьмидесяти процентов всего текста. Увеличение списка еще на одну тысячу дает прирост порядка шести процентов. Добавление следующей, третьей, тысячи позволит покрыть около трех процентов, четвертой — около двух процентов, пятой — немногим более одного процента текста.

«Пользуясь этими данными, можно разумно планировать введение лексики в ходе преподавания иностранного языка, — пишут советские специалисты, говоря о помощи, которую статистика и лингвистика оказывают преподаванию языков. — Так, если согласиться с тем, что за одно занятие учащиеся неспециального вуза могут усвоить 12–18 словоформ, то через 7—10 занятий они должны будут знать не менее 120 словоформ, покрывающих более чем 50 % текста. В этом случае учащийся должен узнавать и переводить по отдельности каждое второе слово неадаптированного текста данной специальности. Через 30–40 занятий учащемуся будет знакомо уже около 500 словоформ, покрывающих в среднем около двух третей всех словоупотреблений текста, а к концу первого учебного года учащийся сможет узнавать около 1000 словоформ, покрывающих около 80 % текста».

Словари, словари, словари…

В чем отличие частотного словаря от любого другого? Прежде всего в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. В «Частотном словаре русского языка», как мы уже говорили, дается и алфавитный, и частотный списки. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой. Так, алфавитный список «Частотного словаря русского языка» — полный, а частотный — неполный, он дает лишь список слов с частотой «десять» и более, остальные тридцать тысяч слов, менее употребительных, в него не включены.

Объем материала, который лег в основу словаря, в значительной мере влияет и на состав этого словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словарь Торндайка и Лорджа, составленный по

текстам в восемнадцать миллионов слов, относится, разумеется, к большим).

Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие (вроде нашего «Частотного словаря русского языка») и отраслевые (например, Е. А. Калининой с помощью ЭВМ составлен частотный словарь русского подъязыка электроники). Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.

Не менее важно и то, что именно фиксируется в словаре: исходная форма слова, словоформа, то есть слово в различных грамматических формах, основа слова или словосочетание. В таких языках, как китайский, разница между словарем основ и словоформ практически неощутима. В английском языке она уже заметна. Когда же мы обращаемся к такому языку, как русский, где множество падежей, глагольных форм и т. д., различие между исходной формой слова и словоформой огромно. Например, частотный словарь русского подъязыка электроники, составленный по текстам в двести тысяч слов, дал свыше двадцати одной тысячи различных словоформ и менее семи тысяч слов!

Частоты, приводимые рядом со словами, также различны. Это может быть абсолютная частота, указывающая, сколько раз в тексте встретилось то или иное слово. Частота эта может быть относительной, выраженной в процентах или вероятностях (ведь объемы словарей могут быть разными, в зависимости от них различны и абсолютные частоты). Во многих словарях приводятся и другие числовые характеристики, например количество источников, в которых встретилось то или иное слово.

Наконец, словари могут различаться по способу анализа материала. Обычно их составляют на основании выборок. Так, для «Частотного словаря русского языка» брались отрывки из произведений различных авторов — писателей и драматургов, ученых и публицистов. В их числе были Ленин и Калинин, Леонов и Шолохов, Вавилов и Тарле, Тимирязев и Ферсман.

Однако есть и другой метод — сплошное расписывание текста. Именно так составляется словарь языка писателя. Подобного рода словари начали составляться давно. В них включаются все слова, которые употребил тот или иной автор в своих произведениях. Существует уже множество словарей, посвященных отдельным произведениям, например «Божественной комедии» Данте, «Неистовому Орланду» Торквато Тассо, «Улиссу» Джеймса Джойса и другим (кстати сказать, «Улиссу» принадлежит своеобразный рекорд по числу различных слов: если в «Божественной комедии» их пять тысяч восемьсот шестьдесят, в «Неистовом Орланде» — восемь тысяч четыреста семьдесят четыре, то Джойс ухитрился употребить почти тридцать тысяч разных слов в одном романе!)

Словарь языка писателя нетрудно сделать и частотным — для этого надо только указать, как часто употреблялось то или иное слово. Именно таким словарем является «Словарь языка Пушкина», выпущенный в нашей стране в четырех томах. В нем приводятся данные о том, сколько раз встречается то или иное слово в Полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах.

Около шестисот тысяч слов содержат все пушкинские тексты. Из них двадцать одна тысяча двести слов — различные. Свыше ста раз встречается лишь семьсот двадцать слов. Зато один раз во всех пушкинских текстах употребляется шесть тысяч четыреста сорок различных слов, два раза — две тысячи восемьсот восемьдесят слов, три раза — одна тысяча восемьсот слов. Это — не «опровержимое и точное свидетельство богатства Пушкинского словаря, своеобразия его лексики.

Поделиться:
Популярные книги

Повелитель механического легиона. Том VI

Лисицин Евгений
6. Повелитель механического легиона
Фантастика:
технофэнтези
аниме
фэнтези
5.00
рейтинг книги
Повелитель механического легиона. Том VI

Ваше Сиятельство 6

Моури Эрли
6. Ваше Сиятельство
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Ваше Сиятельство 6

Имя нам Легион. Том 5

Дорничев Дмитрий
5. Меж двух миров
Фантастика:
боевая фантастика
рпг
аниме
5.00
рейтинг книги
Имя нам Легион. Том 5

Начальник милиции. Книга 4

Дамиров Рафаэль
4. Начальник милиции
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Начальник милиции. Книга 4

Полководец поневоле

Распопов Дмитрий Викторович
3. Фараон
Фантастика:
попаданцы
5.00
рейтинг книги
Полководец поневоле

Я же бать, или Как найти мать

Юнина Наталья
Любовные романы:
современные любовные романы
6.44
рейтинг книги
Я же бать, или Как найти мать

Маршал Советского Союза. Трилогия

Ланцов Михаил Алексеевич
Маршал Советского Союза
Фантастика:
альтернативная история
8.37
рейтинг книги
Маршал Советского Союза. Трилогия

Боги, пиво и дурак. Том 4

Горина Юлия Николаевна
4. Боги, пиво и дурак
Фантастика:
фэнтези
героическая фантастика
попаданцы
5.00
рейтинг книги
Боги, пиво и дурак. Том 4

Беглец

Бубела Олег Николаевич
1. Совсем не герой
Фантастика:
фэнтези
попаданцы
8.94
рейтинг книги
Беглец

Возвращение Безумного Бога 3

Тесленок Кирилл Геннадьевич
3. Возвращение Безумного Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Возвращение Безумного Бога 3

Идеальный мир для Лекаря 9

Сапфир Олег
9. Лекарь
Фантастика:
боевая фантастика
юмористическое фэнтези
6.00
рейтинг книги
Идеальный мир для Лекаря 9

Темный Лекарь 7

Токсик Саша
7. Темный Лекарь
Фантастика:
попаданцы
аниме
фэнтези
5.75
рейтинг книги
Темный Лекарь 7

Александр Агренев. Трилогия

Кулаков Алексей Иванович
Александр Агренев
Фантастика:
альтернативная история
9.17
рейтинг книги
Александр Агренев. Трилогия

Курсант: Назад в СССР 13

Дамиров Рафаэль
13. Курсант
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Курсант: Назад в СССР 13