Репортаж с ничейной земли. Рассказы об информации
Шрифт:
I = P1log P1 + P2log P2 + ... Pnlog Pn.
Здесь значки P1, P2 ... Pп означают вероятности рассматриваемых событий, а log P1 и т. д.
– их логарифмы.
Так, например, в опыте с 6 черными и 4 белыми шарами P1 = 0,6 (60%), а P2 - 0,4 (40%). Значит, в этом случае количество информации будет равно:
I = 0,6·log 0,6 + 0,4·log 0,4.
Быть
I = 0,6·log 0,6 + 0,4·log 0,4 = 0,97.
(При расчете количества информации применяются двоичные логарифмы.)
А для случая с 1 белым и 9 черными шарами получим:
I = 0,1·log 0,1 + 0,9·log 0,9 = 0,47.
Таким образом, наши общие рассуждения о «неопределенности опыта» и о «мере неведенья» тех, кто проводит опыт, теперь выражаются точными числами. Но сами по себе числа мало о чем говорят.
Ведь нельзя сказать, что вес равен 10, - все дело в том, в каких выражается он единицах. Что это - 10 граммов или 10 тонн? Значит, для измерения информации тоже нужны какие-то единицы. Единицей времени служит время: час, минута, секунда. Единицей веса опять-таки служит вес. И все измерения производятся так же: давление сравнивается с давлением, температура - с температурой. Значит, и информацию нужно сравнивать с информацией.
За единицу количества информации принят самый простенький случай. Есть два возможных исхода - «или - или»; и каждый из них имеет одинаковую вероятность. Когда получено сообщение об исходе, одно «или» отпало и вы получили одну единицу количества информации - так называемый «бит». Например, в нашем ящике лежит 5 черных и 5 белых шаров. С равной вероятностью можно ожидать или черного, или белого шара. А по формуле Шеннона в этом случае получается:
I = 0,5·log20,5 + 0,5·log20,5 = - log22 = 1 бит.
Название «бит» происходит от сокращения английских слов, означающих в переводе «двоичная единица». Каждый знак двоичного кода тоже дает 1 бит информации, потому что с равной вероятностью может появиться 1 или 0.
Теперь мы имеем возможность оценить наши опыты в битах. Случай с четырьмя и шестью шарами имел большую неопределенность и давал информацию в количестве 0,97 бита. Опыт с девятью черными и одним белым шарами обладает меньшей неопределенностью - здесь каждое сообщение дает только 0,47 бита. А если в ящике находится 99 черных шаров и только один белый? Неопределенность почти исчезает: мы будем почти все время извлекать черный шар. И по формуле мы получим для данного случая информацию всего лишь 0,08 бита. Ну, а если нам вопреки ожиданиям попадется вдруг белый шар? Случай этот весьма непредвиденный, значит сообщение о таком результате должно дать большое количество информации. Так оно и окажется. Но при большом количестве опытов такое событие будет происходить очень редко, и в общей сумме полученной информации оно сыграет весьма малую роль. А формула Шеннона показывает, сколько информации дает в среднем каждое из сообщений. В большинстве случаев мы станем получать сообщения об извлечении черного шара. Очень редко будет попадаться и белый шар. А в среднем каждое сообщение оценивается в 0,08 бита.
А теперь взгляните на формулу, начертанную на самом верху колонны. Не кажется ли она вам знакомой? В самом деле, в ней есть те же символы Pi log Pi. Тот же значок
I =
n
i=1
Pi log Pi
Эту формулу можно использовать для оценки разнообразных сообщений. «Когда состоится очередное совещание работников транспорта?» - -запросили вы министерство. Какое количество информации вы должны получить в ответ? Неопределенности здесь гораздо больше, чем в опытах с черными и белыми шарами. Там вы могли ожидать только два различных исхода. А здесь вам могут назвать любой месяц и любое число. В году 365 дней, и, пока вы не получили ответа, любой из них имеет для вас одинаковую вероятность:
P1 = P2 = ... = P365 =
1
365
Формула Шеннона поможет нам выразить эту неопределенность количеством бит:
I =
365
i=1
Pi log Pi
Если действовать так, как велит эта формула, придется, набравшись терпения, выписать все члены Pilog Pi от P1 до P365 и сложить их между собой.
Но в данном случае расчет производится проще: сложение можно заменить умножением, потому что все вероятности Pi равны. Значит,
I =
(
1
365
·log
1
365
)
·365 = log
1
365
= - log 28,5 = 8,5 бита.
Но вот пришел, наконец, ответ организаторов совещания, и неопределенность исчезла: в ответе указана точная дата - пятое августа. В каждом слове этого сообщения содержится определе-н'ное количество информации. Слово «август» позволяет отметить один из 12 месяцев. В нем содержится:
I1 =
12
i=1
Pi log Pi =
(
1
12
·log
1
12
)
·12 = - log 23,6 = 3,6 бита.
Слово «пятое» позволяет выбрать из 31 дня данного месяца интересующий нас день совещания.
Значит,
I2 =
31
i=1
Pi log Pi =