Чтение онлайн

на главную

Жанры

Капеллан дьявола: размышления о надежде, лжи, науке и любви
Шрифт:

Сообщение “В Оксфорде на этой неделе ежедневно шел дождь” несет сравнительно мало информации, потому что получателя оно не удивит. С другой стороны, количество информации в сообщении “В пустыне Сахара на этой неделе ежедневно шел дождь” намного больше и вполне стоит того, чтобы подороже заплатить за его пересылку. Шеннон хотел как-то передать этот смысл количества информации как “меры удивительности”. Он связан с другим смыслом (как “того, что не продублировано в других частях сообщения”), потому что повторы теряют свою способность удивлять. Заметьте, что шенноновское определение количества информации не зависит от того, истинна ли она. Придуманная им мера информации была остроумна и интуитивно соответствовала задаче. Давайте, предложил он, оценим количество незнания или неопределенности знаний получателя до получения сообщения, а затем сравним его с количеством оставшегося незнания после получения сообщения. Сокращение количества незнания и будет количеством переданной информации. Шенноновская единица измерения информации — бит (bit), от binary digit (двоичная цифра). Один бит определяется как количество информации, необходимое, чтобы первоначальная неопределенность сократилась вдвое, как бы велика она ни была (читатели-математики заметят, что бит, таким образом, относится к логарифмическим единицам измерения).

На практике вначале нужно найти способ измерения априорной неопределенности — той, что сокращается, когда поступает информация.

Для некоторых разновидностей простых сообщений это легко сделать с помощью вероятностей. Будущий отец с нетерпением наблюдает через окошко за рождением своего ребенка. Ему не видно почти ничего, поэтому одна из медсестер согласилась показать ему розовую карточку, если родится девочка, или голубую, если родится мальчик. Сколько информации передается, когда сестра показывает счастливому отцу, скажем, розовую карточку? Ответ — один бит (априорная неопределенность сократилась вдвое). Отец знает, что родился какой-то ребенок, поэтому неопределенность его знаний сводится к двум возможностям (мальчик или девочка), которые для целей этого обсуждения можно считать равновероятными. Розовая карточка вдвое сокращает априорную неопределенность от двух возможностей до одной (девочка). Если бы никакой розовой карточки не было, а из родильной комнаты вышел бы врач, пожал бы новоиспеченному отцу руку и сказал: “Поздравляю, старина, я очень рад, что мне выпала честь первым вам сообщить, — у вас родилась дочь”, то количество информации, переданной этим сообщением в семнадцать слов, составило бы по-прежнему один бит.

Компьютерная информация содержится в последовательностях нолей и единиц. Есть только два возможных варианта, поэтому 0 или 1 в каждом положении содержит один бит информации. Объем памяти компьютера или емкость диска или ленты часто измеряется в битах и представляет собой суммарное число нолей или единиц, которые это устройство может содержать. Для некоторых целей более удобной единицей измерения служит байт (восемь бит), килобайт (тысяча байт), мегабайт (миллион байт) или гигабайт (тысяча миллионов байт) [121] . Заметьте, что эти числа относятся к суммарной имеющейся емкости. Это максимальное количество информации, которую можно записать на данное устройство. Реальное количество записанной информации — это нечто иное. К примеру, емкость моего жесткого диска — 4,2 гигабайт. Из них в настоящий момент около 1,4 гигабайт реально использованы для хранения данных. Но даже это не настоящее количество информации (в шенноновском смысле слова) на моем диске. Настоящее количество информации меньше, потому что ту же информацию можно записать экономнее. Некоторое представление о настоящем количестве информации можно получить, воспользовавшись одной из замечательных программ-архиваторов вроде Stuffit. Эта программа ищет избыточность в последовательности нолей и единиц и ощутимо сокращает эту последовательность путем перекодировки, очищая ее от внутренней предсказуемости. Максимального сжатия информации можно было бы добиться (на практике это, по-видимому, невозможно), если бы каждая единица или ноль удивляли бы нас в равной степени. Прежде чем передавать большие объемы информации через интернет, ее обычно архивируют, сокращая ее избыточность [122] .

121

Эти круглые цифры — десятичные приближения. В компьютерном мире стандартные метрические приставки кило-, гига- и т. п. заимствованы для обозначения ближайшей удобной степени двойки. Поэтому килобайт — это не тысяча байт, а 210, или 1024 байт, а мегабайт — не миллион байт, а 220, или 1 048 576 байт. Если бы эволюция дала нам не десять, а восемь или шестнадцать пальцев, компьютер, быть может, изобрели бы столетием раньше. Теоретически мы могли бы теперь решить учить всех детей восьмеричной, а не десятеричной арифметике. Мне бы очень хотелось, чтобы так и попробовали сделать, но, рассуждая реалистически, я понимаю, что огромные краткосрочные затраты на этот переход перевесили бы его несомненную долгосрочную выгоду. Начать с того, что нам всем пришлось бы вновь учить таблицу умножения.

122

Одно из успешных приложений этого аспекта теории информации — идея Хораса Барлоу, что сенсорные системы устроены так, чтобы очищать свои сообщения от солидных объемов избыточности, прежде чем передавать их в мозг. Один из способов это сделать состоит в том, чтобы передавать сигналы об изменениях в окружающем мире (математики назвали бы это дифференцированием), вместо того чтобы докладывать постоянно о текущем его состоянии (что отличалось бы высокой избыточностью, потому что оно не меняется быстро и беспорядочно). Эта идея Барлоу обсуждается в моей книге “Расплетая радугу”: Dawkins, R. Unweaving the Rainbow. London, Penguin, 1998; Boston, Houghton Mifflin, 1998, pp. 257-266.

Все это хорошо с точки зрения экономики. Но с другой стороны, сохранять некоторую избыточность в сообщениях, ради исправления ошибок, тоже неплохая идея. Если в сообщении, совершенно лишенном избыточности, произошла ошибка, восстановить его исходный смысл уже никак невозможно. В машинные коды часто преднамеренно включают избыточные “биты контроля четности”, помогающие находить ошибки. У ДНК тоже есть различные механизмы исправления ошибок, основанные на избыточности. Когда я перейду к разговору о геномах, я вернусь к разнице между упомянутыми тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации.

Открытие Шеннона состояло в том, что информацию любого рода, независимо от ее смысла, ее истинности или ложности, ее физического носителя, можно измерять в битах и переводить на любой другой носитель. Великий биолог Джон Б. С. Холдейн использовал теорию Шеннона, чтобы подсчитать число бит информации, передаваемое рабочей пчелой своим соседям по улью, когда она “танцует”, сообщая о местоположении источника пищи (около трех бит, чтобы сообщить направление на этот источник, и еще три бита, чтобы сообщить расстояние до него). В тех же самых единицах, как я недавно подсчитал, мне понадобилось бы сто двадцать мегабит машинной памяти моего лэптопа, чтобы записать торжественные вступительные аккорды симфонической поэмы Рихарда Штрауса “Так говорил Заратустра” (“тема из ‘Космической одиссеи 2001 года’”), которые я хотел проиграть в середине одной лекции об эволюции. Экономический метод Шеннона также позволяет сосчитать, сколько модемного времени потребуется, чтобы послать полный текст книги издателю в другую страну. Спустя пятьдесят лет после открытия Шеннона его идея информации как предмета потребления, такого же измеримого и взаимопревраща-емого, как деньги или энергия, окончательно вступила в свои права.

ДНК переносит информацию очень по-компьютерному, и емкость генома тоже можно, если захочется, измерять в битах. В ДНК используется не двоичный код, а четверичный. В то время как в компьютере единица информации — это 1 или 0, в ДНК это Т, А, С или G. Сколько информации будет передано от меня к вам, если я сообщу вам, что в

определенном месте последовательности ДНК стоит Г? Начнем с измерения априорной неопределенности. Сколько открыто возможностей до поступления сообщения “Г”? Четыре. Сколько возможностей остается после его поступления? Одна. Стало быть, можно подумать, что было передано четыре бита информации, но на самом деле их только два. И вот почему (исходя из того, что все четыре буквы встречаются с равной вероятностью, как четыре масти в колоде карт). Вспомним, что шенноновская мера касается наиболее экономного способа передачи сообщения. Представьте ее себе как число вопросов, предполагающих ответ “да” или “нет”, которые понадобилось бы задать, чтобы свести исходную неопределенность из четырех возможностей к определенности, если предположить, что вопросы будут сформулированы самым экономным способом. “Идет ли эта таинственная буква по алфавиту перед D)?” [123] Нет. Это сводит неопределенность к вариантам Т и G, и теперь нам понадобится только один дополнительный вопрос, чтобы узнать разгадку. Итак, в соответствии с этим методом измерения, информационная емкость каждой “буквы” ДНК составляет два бита.

123

Химик скорее спросил бы: “Это производное пиримидина?” — но в моем примере такой вопрос мог бы сбить с толку. Лишь случайно получилось так, что четыре буквы алфавита ДНК оказались распределены поровну между двумя группами химических соединений, производными пурина и пиримидина.

Во всех случаях, когда априорную неопределенность знаний получателя можно выразить как число равновероятных альтернатив N, количество информации в сообщении, сводящем эти альтернативы к одной, составляет log2N (степень, в которую нужно возвести двойку, чтобы получить число альтернатив N). Если выбрать карту — любую карту — из обычной колоды, то сообщение, какая это карта, будет нести log252, или 5,7 бит информации. Иными словами, если бы мы сыграли в большое число игр на угадывание, нам потребовалось бы в среднем 5,7 вопроса, требующих ответа “да” или “нет”, чтобы угадать эту карту, при условии, что мы будем задавать вопросы самым экономным способом. Первые два вопроса позволили бы нам узнать масть (например, “Она красная?” и “Это бубны?”), а оставшиеся три или четыре — успешно разделить и проверить всю эту масть (“Старше шестерки?” и тому подобное), в итоге неминуемо придя к искомой карте. Когда априорная неопределенность представляет собой своего рода смесь альтернатив, которые не равновероятны, формула Шеннона преобразуется в немного усложненную формулу для расчета взвешенного среднего, которая, впрочем, по сути аналогична. Кстати, шенноновская формула взвешенного среднего — это именно та формула, которую физики с XIX века используют для расчета энтропии. Отсюда следуют интересные вещи, но здесь я не буду их рассматривать [124] .

124

Эту формулу используют также экологи в качестве коэффициента разнообразия.

Этих сведений из теории информации будет достаточно. Эта теория давно привлекает меня, и я использовал ее в некоторых своих научных работах разных лет. Теперь давайте подумаем, как ее можно использовать, чтобы ответить на вопрос, увеличивается ли количество информации в геномах в ходе эволюции. Во-первых, давайте вспомним разницу между тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации, записанной самым экономным из всех возможных способов. Суммарная информационная емкость человеческого генома измеряется в гигабитах. У обыкновенной бактерии кишечной палочки (Escherichia coli) она измеряется в мегабитах. Мы, как и все другие животные, происходим от предка, которого, если бы у нас сегодня была возможность его исследовать, мы отнесли бы к бактериям. Итак, за миллиарды лет эволюции, прошедшие со времени жизни этого предка, информационная емкость нашего генома могла вырасти где-то на три порядка (степени десятки) — примерно в тысячу раз. Это довольно правдоподобно и утешительно для человеческого достоинства.

Должны ли мы тогда чувствовать, что человеческое достоинство унижает тот факт, что у гребенчатого тритона (Triturus cristatus) емкость генома оценивается в сорок гигабит — на порядок больше, чем у человека? Нет, потому что большая часть емкости генома любого животного в любом случае не используется для хранения полезной информации. Существует множество нефункциональных псевдогенов (см. ниже) и множество повторяющихся бессмысленных последовательностей, полезных для судебно-медицинских экспертов, но не транслируемых в живых клетках в белки. У гребенчатого тритона “жесткий диск” вместительнее, чем у нас, но поскольку основная часть жесткого диска у обоих наших видов не используется, нам не стоит обижаться. У родственных гребенчатому видов тритонов геномы гораздо меньше. Зачем Создателю понадобилось так произвольно и нечестно разыграть размеры генома между тритонами — проблема, над которой могли бы поразмыслить креационисты. С эволюционной точки зрения все объясняется просто [125] .

125

Мое предположение (“Эгоистичный ген”, 1976), что избыточная ДНК — это некий паразит, было подхвачено другими учеными (“эгоистичная ДНК”). См. второе издание “Эгоистичного гена”: Dawkins, R. The Selfish Gene, 2nd edn. Oxford University Press, 1989, pp. 44-45, 275.

Ясно, что суммарная емкость геномов весьма изменчива во всех царствах живой природы и должна была сильно меняться в ходе эволюции, вероятно в обоих направлениях. Потери генетического материала называют делециями. Новые гены возникают посредством разных форм дупликации. Это можно хорошо проиллюстрировать на примере генов гемоглобина — сложной белковой молекулы, переносящей кислород в крови.

Гемоглобин взрослого человека составлен из четырех белковых цепочек, называемых глобинами, сплетенных друг с другом. Их подробные последовательности показывают, что четыре цепочки глобинов близкородственны друг другу, но не идентичны. Две из них называют альфа-глобинами (каждый из них представлен цепочкой из 141 аминокислоты), а еще две — бета-глобины (каждый из них представлен цепочкой из 146 аминокислот). Гены, кодирующие альфа-глобины, находятся в 11-й хромосоме, а гены, кодирующие бета-глобины, в 16-й хромосоме. В каждой из этих хромосом имеется кластер из расположенных подряд генов глобинов, разделенных вкраплениями из некоторого количества “мусорной ДНК”. Альфа-кластер, на 11-й хромосоме, содержит семь генов глобинов. Четыре из них — псевдогены: варианты генов альфа-глобина, испорченные ошибками в их последовательностях и не транслируемые в белки. Два — настоящие альфа-глобины, используемые у взрослого человека. Последний называется дзета-глобином и используется только у эмбрионов. Сходным образом и бета-кластер, на 16-й хромосоме, содержит шесть генов, из которых часть выключены, а один используется только у эмбриона. Гемоглобин взрослых, как мы уже поняли, содержит две альфа- и две бета-цепочки.

Поделиться:
Популярные книги

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Идеальный мир для Лекаря 25

Сапфир Олег
25. Лекарь
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 25

Ненаглядная жена его светлости

Зика Натаэль
Любовные романы:
любовно-фантастические романы
6.23
рейтинг книги
Ненаглядная жена его светлости

Гримуар тёмного лорда I

Грехов Тимофей
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Гримуар тёмного лорда I

Печать мастера

Лисина Александра
6. Гибрид
Фантастика:
попаданцы
технофэнтези
аниме
фэнтези
6.00
рейтинг книги
Печать мастера

Мастер 7

Чащин Валерий
7. Мастер
Фантастика:
фэнтези
боевая фантастика
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Мастер 7

Шведский стол

Ланцов Михаил Алексеевич
3. Сын Петра
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Шведский стол

Последняя Арена 4

Греков Сергей
4. Последняя Арена
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Последняя Арена 4

Истинная поневоле, или Сирота в Академии Драконов

Найт Алекс
3. Академия Драконов, или Девушки с секретом
Любовные романы:
любовно-фантастические романы
6.37
рейтинг книги
Истинная поневоле, или Сирота в Академии Драконов

Безумный Макс. Ротмистр Империи

Ланцов Михаил Алексеевич
2. Безумный Макс
Фантастика:
героическая фантастика
альтернативная история
4.67
рейтинг книги
Безумный Макс. Ротмистр Империи

Отмороженный 11.0

Гарцевич Евгений Александрович
11. Отмороженный
Фантастика:
боевая фантастика
рпг
попаданцы
фантастика: прочее
фэнтези
5.00
рейтинг книги
Отмороженный 11.0

Комбинация

Ланцов Михаил Алексеевич
2. Сын Петра
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Комбинация

Эра Мангуста. Том 2

Третьяков Андрей
2. Рос: Мангуст
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Эра Мангуста. Том 2

Покоривший СТЕНУ. Десятый этаж

Мантикор Артемис
3. Покоривший СТЕНУ
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Покоривший СТЕНУ. Десятый этаж