Чтение онлайн

на главную - закладки

Жанры

Репортаж с ничейной земли. Рассказы об информации
Шрифт:

Если подсчитать, сколько раз встретится каждая буква алфавита после букв с и т, мы узнаем вероятность появления различных букв. И тогда окажется, что появление некоторых букв вслед за буквами с и т имеет большую вероятность (например, буквы е, о, а, р и т. п.), других букв - меньшую (например, ы - слово стычка или стык или в - стволстворка), а для многих букв вероятность будет вовсе равна нулю: ведь нельзя

вспомнить ни одного слова, в котором за буквами ст следовали бы буквыб, г или щ. Значит, в передаваемом тексте появление тех или иных букв не является «чисто случайным»; между последующим и предыдущим значениями передаваемых букв существует определенная взаимосвязь.

Взаимосвязь между случайными влениями называется «корреляцией». Этим свойством обладают самые разнообразные случайные процессы.

Случайным является значение букв, переданных по телеграфу. Случайной является частота и громкость звука в то или иное мгновение радиопередачи, случайной является мгновенная яркость бегущего по экрану телевизора электронного луча.

Но все эти случайные процессы в той или иной степени обладают чудесным свойством корреляции: и яркость луча, и звучание той или иной ноты связаны с той яркостью и тем звучанием, которые имели место несколько мгновений назад. Эта связь - основа гармонии музыкальных мелодий, плавных переходов от света к тени, тонов и полутонов.

Корреляция - основа порядка. Если бы по какой-либо невероятной причине все процессы вдруг лишились этого свойства, то телеграфные тексты мгновенно превратились бы в бессмысленную буквенную россыпь, музыка зазвучала бы, как шум водопада. а изображение на экране телевизора стало похожим на снежный буран. Язык, в котором все сочетания букв имели бы равное право на существование, выглядел бы довольно странно, потому что рядом с привычными в этом языке существовали бы и такие «слова», как пакртчмынъиюа, и другие, лишенные смысла и часто вовсе не произносимые сочетания букв.

На самом деле все тексты обладают свойством корреляции, и потому только около 0,0002 процента возможных буквенных сочетаний составляют осмысленные слова. И это не удивительно, ведь существует целый ряд сочетаний, запрещенных законами русской грамматики. Значит, их вероятность равна нулю. Так, например, вслед за буквой ч никогда не последуют буквы ы, я или ю, а в начале слова или после любой из гласных мы никогда, ни в одном тексте не увидим мягкий знак.

Бесконечное множество различных процессов обладает свойствами корреляции. Помимо букв, звуков, изображений, по тем же законам могут меняться значения токов, давлений, скоростей и температур. Но математика смогла обобщить все явления, в которых случайные значения скорости, яркости или буквы зависят от тех значений, которые имели место мгновение назад. Она назвала их «марковскими процессами» - по имени русского математика Маркова, который первым исследовал подобные процессы.

Все эти сведения о вероятностных законах словесных текстов вы можете почерпнуть из специальных статей и книг. Но если вам посчастливится побывать в лабораториях Нового Города, вы сможете увидеть собственными глазами, как случаем управляет закон. Здесь вам предложат вновь обратиться к урне с шарами, но на этот раз шары будут отличаться не цветом, а надписью: на каждом шаре будет написана какая-то буква. Вынимая шары наугад и вновь бросая их в урну, вы получите что-нибудь вроде: сухерробьдш яыхвщиюайжтлфвнзстфоенвштцрпхгбкуч тжюряпчъкйхрыс.

– Для чего вы заставляете меня записывать эту бессмыслицу?
– спросил я у сотрудника лаборатории, демонстрировавшего этот опыт.

– Бессмыслицу?
– улыбнулся он.
– Да, пожалуй. Это пример самого хаотичного текста. В этой урне 320 шаров, каждая буква повторяется 10 раз. Вероятность всех букв одинакова:

PА = PБ = PВ = ... = PЯ = 1/32.

Если вы подставите эти значения в формулу Шеннона, то получится, что каждая буква дает информацию в количестве 5 бит.

(Читатель уже знаком с примером такого расчета. В данном случае:

I =

(

1

32

·log

1

32

)

·32 = log

1

32

 = - log 25 = 5 бит.)

Обратите внимание, - продолжал он, указывая на непонятную запись, - каким несуразным получилось второе слово. Встречали ли вы когда-нибудь такие «слова»? Конечно, нет, ведь в нем целых 59 букв! Продолжая этот опыт, вы будете все время получать такие же длинные и несуразные «слова». Почему? Потому что буквы чередуются здесь беспорядочно. 10 шаров не имеют букв. Вынимая такой шар, вы отмечаете пробел, соответствующий концу «слов». Вероятность появления пробела так же равна 1/32. Это значит, что в среднем на каждые 32 вынутые буквы будет один раз попадаться пробел. Значит, в нашем «тексте» 31 буква - это средняя длина слов. А ведь в нормальном тексте средняя длина слова составляет не более 7 букв.

Как же сделать, чтобы наш «текст» стал похож на обычные тексты? А очень просто. Возьмем другую урну. В этой урне среди каждой сотни шаров буква а попадется семь раз. Приблизительно с такой частотой повторяется она в русском тексте. Количество других букв также соответствует их вероятности. Повторите опыт.

На этот раз сообщение выглядело так:

еыт цияьа оерв однт ьуемлойк збя енв тша.

– Не правда ли, это мало похоже на обычную фразу?
– обратился ко мне ученый.
– И все же здесь уже есть какой-то порядок, по крайней мере нет слов слишком длинных, и каждое из них можно даже произнести вслух. А впрочем, нет. Как произнесешь мягкий знак, - стоящий в начале слова или поеле гласного звука я? Мы можем оценить в цифрах, много ли порядка появилось теперь в нашем тексте. Для этого надо знать, чему равна вероятность каждой буквы, подставить их в формулу Шеннона и подсчитать значение I. Мы уже делали такие расчеты, Получалось, что на каждую букву приходится теперь около 4 бит.

Итак, в первом случае было 5 бит на букву, а теперь только 4. Почему? Потому что уменьшилась неопределенность. Разные буквы имеют теперь не одинаковую вероятность, а разную. У формулы Шеннона есть одно очень важное свойство: она всегда покажет, что наибольшее значение I соответствует равной вероятности всех возможных событий. Если есть черные и белые шары, энтропия будет самой большой, когда и тех и других по 5, по 10 или по 100 штук. Если черных больше, чем белых, неопределенность становится меньше. Значит, в формуле Шеннона уменьшилось I.

То же самое с текстом. Раньше каждые 100 букв несли 500 бит информации, теперь 100 букв дают только 400 бит. Неопределенность фразы, состоящей из 100 букв, стала меньше ровно на 100 бит.

А можно рассуждать по-другому: перед тем как класть в урну шары с обозначениями букв, мы учли их вероятность. От этого в нашем тексте стало больше порядка: в каждой стобуквенной фразе порядок возрос на 100 бит.

– А сколько порядка в обычном печатном тексте?
– спросил я ученого.

– На этот вопрос не так-то просто ответить. Чтобы оценить в битах этот порядок, надо учесть корреляцию всех букв и слов. Но мы с вами поступим несколько проще. Вот перед вами стоит вычислительная машина. В ее памяти хранятся все буквы алфавита. Мы сейчас зададим ей такую программу: она будет помнить три последние буквы написанного ей текста и сама выберет четвертую. При этом она учтет вероятности сочетаний: например, она «знает», что вероятность сочетания ста составляет 5 процентов, а вероятность стю - только 1 процент. Значит, в тексте, написанном этой машиной, сочетание стю встретится в пять раз реже, чем сочетание ста. Внимание, я включаю машину!

Поделиться:
Популярные книги

Сиротка 4

Первухин Андрей Евгеньевич
4. Сиротка
Фантастика:
фэнтези
попаданцы
6.00
рейтинг книги
Сиротка 4

Последний Паладин. Том 7

Саваровский Роман
7. Путь Паладина
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Последний Паладин. Том 7

Не грози Дубровскому!

Панарин Антон
1. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому!

Отмороженный

Гарцевич Евгений Александрович
1. Отмороженный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Отмороженный

Кровь и Пламя

Михайлов Дем Алексеевич
7. Изгой
Фантастика:
фэнтези
8.95
рейтинг книги
Кровь и Пламя

Мимик нового Мира 14

Северный Лис
13. Мимик!
Фантастика:
юмористическое фэнтези
постапокалипсис
рпг
5.00
рейтинг книги
Мимик нового Мира 14

Шериф

Астахов Евгений Евгеньевич
2. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
6.25
рейтинг книги
Шериф

Месть за измену

Кофф Натализа
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Месть за измену

Герой

Бубела Олег Николаевич
4. Совсем не герой
Фантастика:
фэнтези
попаданцы
9.26
рейтинг книги
Герой

Я еще граф

Дрейк Сириус
8. Дорогой барон!
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Я еще граф

(Не) Все могут короли

Распопов Дмитрий Викторович
3. Венецианский купец
Фантастика:
попаданцы
альтернативная история
6.79
рейтинг книги
(Не) Все могут короли

Первый пользователь. Книга 3

Сластин Артем
3. Первый пользователь
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Первый пользователь. Книга 3

Убивать чтобы жить 6

Бор Жорж
6. УЧЖ
Фантастика:
боевая фантастика
космическая фантастика
рпг
5.00
рейтинг книги
Убивать чтобы жить 6

Мимик нового Мира 13

Северный Лис
12. Мимик!
Фантастика:
боевая фантастика
юмористическая фантастика
рпг
5.00
рейтинг книги
Мимик нового Мира 13