Семь раз проверь... Опыт путеводителя по опечаткам и ошибкам в тексте
Шрифт:
Воспользуемся для иллюстрации рассказом Конан Дойля «Пляшущие человечки». По ходу действия знаменитый сыщик Шерлок Холмс разгадывает секрет пляшущих фигурок, показавшихся недогадливому доктору Ватсону детской забавой. Среди пятнадцати фигурок первого послания Шерлок Холмс заметил четыре одинаковые и предположил, что они означают букву «Е», которая встречается в текстах чаще, чем любая другая буква английского алфавита. Из его рассуждений явствует, что вслед за «Е» в английском тексте по частоте встречаемости идут буквы «Т», «А», «О», «I», «N», «S», «Н», «R» и т.д. Зная порядок их возможного появления, знаменитый сыщик постепенно находит недостающие буквы и восстанавливает весь текст.
Поразительно, что Шерлок Холмс, располагая лишь карандашом и бумагой, чисто эмпирическим путем пришел к результатам, которые полвека спустя были получены
После небольшого экскурса в классический детектив мы можем, не рискуя озадачить читателей, поставить несколько странный вопрос: какая буква самая нужная? Напрашивается ответ, что нужны-то собственно все буквы алфавита. Но будь они все одинаково употребительными, Шерлок Холмс не смог бы разгадать хитрую тайнопись, придуманную отцом несчастной Илcи Каббит.
Методика, которую применил герой Конан Дойля для реконструкции зашифрованного текста, практически важна в производстве печатного слова. Очевидно, что с точки зрения наборщика самые нужные буквы — это те, которые больше всего у него в ходу.
Рациональным образом это отражено в устройстве старой наборной кассы для русского шрифта, до сих пор используемой в ряде типографий: среди девяноста пяти гнезд для строчных и прописных букв мы видим «помещения» побольше и поменьше. Размеры ячеек наборной кассы определяются прежде всего тем, насколько часто в процессе набора требуется та или другая буква. Изобретатели кассы для ручного набора прикинули эту потребность на глаз, а вот конструкторы линотипа учли, что в русском тексте доминирует буква «о». В магазине строкоотливной машины имеются девяносто два канала для размещения линотипных матриц — почти столько же, сколько ячеек в наборной кассе. Девяносто каналов соответствуют буквам на клавиатуре, но для матриц буквы «о» предназначен дополнительный канал, так как в противном случае происходили бы задержки из-за недостачи столь популярной буквы и машина работала бы с перебоями.
И все же буквы распределены по гнездам наборной кассы грубо и приблизительно, так как соотношение их численности не всегда совпадает с настоящим положением вещей. «Не только отдельные виды литературы, — писал Н.Н. Проскурнин в статье «Подсчеты частоты литер и комплектовка шрифта», — но даже стиль отдельных авторов требуют другого соотношения литер, чем то, которое предусматривает стандартная комплектовка, не говоря уже о таких чисто случайных моментах, когда, например, собственные имена, встречающиеся в каком-либо романе, очень часто повторяются, что требует, прежде всего, большого количества определенных прописных букв» [ 90 , с. 76].
Сборник «Письменность и революция», в котором появилась указанная статья, вышел более сорока лет назад, задолго до изобретения быстродействующих электронно-вычислительных машин, которые могли бы произвести более точные подсчеты. Но весьма характерно, что к тем же, примерно, выводам приходят и математики, пользующиеся современной вычислительной техникой.
Так, авторы книги «Вероятность и информация» А. М. и И.М. Ягломы, касаясь вопроса о вероятности появления различных букв в русском тексте, пишут: «Строго говоря, эти частоты могут несколько зависеть от характера текста (например, в учебнике по высшей математике частота обычно очень редкой буквы „ф“ будет заметно выше средней из-за частого повторения слов „функция“, „дифференциал“, „коэффициент“ и некоторых других; еще больше отклонения от нормы в частоте употребления отдельных букв можно наблюдать в некоторых художественных произведениях, особенно в стихах)... Как правило, однако, подобные отклонения будут все же сравнительно небольшими и в первом приближении ими можно пренебречь» [ 139 , с. 237–238]. По мнению математиков, любой отрывок напечатанного текста по своим статистическим закономерностям приближается к «среднему языку» [ 138 , с. 100].
Проанализировав разнообразные тексты, взятые из самых различных источников (стихи, проза, научная литература и пр.), математики не просто на глазок, а с помощью точных средств и методов определили, насколько же «нужна» каждая буква в отдельности.
Вглядитесь в приведенный ниже ряд букв:
о е а и т н с р в л к м д п у я ы з ь ъ б г ч й х ж ю ш ц щ э ф
Здесь перед нами тридцать две буквы русского алфавита. Но впечатление такое, словно все они взбунтовались и сорвались со своих привычных мест. Ничего подобного! Буквы стоят в безусловном порядке, но не в той последовательности, в какой мы привыкли их видеть в букварях и словарях. Наиболее «нужные» выдвинуты вперед, а те, которые реже встречаются в печати, потеснились на задние места. Этот порядок обусловлен относительной частотой появления в тексте каждой отдельной буквы. Например, для буквы «о» относительная частота составляет (в условном исчислении) 0,090, а для буквы «ф» — 0,002, то есть первая буква встречается в тексте в сорок пять раз чаще, чем последняя. Одинаково часто встречаются пары букв «а» и «и» (у них одинаковые значения частот), «т» и «н», «ы» и «з», «ь» и «б», «ю» и «ш», «щ» и «э», но букву «р» мы найдем в печати в четыре раза чаще, чем «й», а букву «ж» в пять раз реже, чем «л», и т.д.
Дальнейшие подсчеты показали, что четыре самые «нужные» буквы — «о», «е», «а», «и» — составляют около одной трети (33,9%) русского печатного текста. Следующую треть (33,6%) образуют шесть букв — «н», «т», «р», «в», «с», «д». И лишь последняя треть (32,5%) приходится на долю всех остальных двадцати двух букв.
Вместе с тем ученые обнаружили парадоксальное, на первый взгляд, явление: чем «нужнее» или употребительнее буква, тем меньше информации она содержит. В частности, информационная насыщенность каждой буквы первой группы почти в два раза ниже, чем буквы третьей группы (1,97 и 3,79 бита). В практическом отношении это означает, что реконструкция текстов с опорой на буквы третьей группы быстрее и точнее, чем с опорой на буквы двух первых групп. На основании всех указанных подсчетов профессор Г.Н. Кечхуашвили пришел к интересному выводу, что оставшиеся в сокращенном или искаженном тексте буквы в силу своих статистических связей сами как бы диктуют человеку, имеющему опыт чтения на данном языке, чего и где недостает [ 55 , с. 34].
Становится все яснее, что мы ничуть не отвлеклись в сторону, занявшись вопросом о вероятности появления отдельных букв в тексте. Закономерность, установленная для «правильных» букв алфавита, как нетрудно убедиться, действительна и в отношении «неправильных» букв, то есть опечаток. Согласившись с заключением исследователей, что линотипист делает в среднем пять процентов ошибок (к количеству набранных строк), логично предположить, что «жертвой» неправильных действий оператора скорее будет расхожая буква «о», чем редкая «ф». Срывы и отказы в действиях оператора несомненно корреспондируют с частотой употребления отдельных букв в печати, хотя нельзя забывать, конечно, и о таких факторах, как расположение букв на клавиатуре наборной машины (и в гнездах кассы) и умение быстро распознавать буквы в оригинале.
Эмпирические данные подтверждают, что опечатки действительно чаще всего связаны с буквами «о», «е», «а», «и», «т», «н», занимающими первые места в таблице частот.
Осторожности ради, не следует считать эти данные полными и окончательными, пока не произведены более капитальные исчисления. Однако уже сейчас ориентировочные значения частот появления отдельных букв алфавита в печати могут помочь в работе с печатными текстами, особенно в тех случаях, когда при переиздании ранее опубликованных произведений (например, сочинений классиков литературы и науки) необходимо идентифицировать (опознать) опечатку, то есть доказать, что в таком-то месте допущено искажение, а не приводятся подлинные слова автора.
Вот, кстати, любопытный пример, который сам, что называется, подвернулся под руку. В корректуре одной литературоведческой статьи оказалась такая фраза: «Есенин вернулся в Москву изМуренным, больным». Искаженное слово можно было прочесть двояко: и «измученным» и «изнуренным». На какой же букве споткнулся наборщик?
Прежде чем обратиться к первоисточнику (приведенная фраза — это цитата из книги), мы решили справиться в таблице частот букв русского алфавита. Ориентировочное значение частоты для буквы «н» равняется 0,053, а для буквы «ч» намного меньше — 0,012. Заглянув после этого в книгу, мы прочитали именно то, что было подсказано математикой: «Есенин вернулся в Москву изнуренным, больным».