Капеллан дьявола: размышления о надежде, лжи, науке и любви
Шрифт:
Сообщение “В Оксфорде на этой неделе ежедневно шел дождь” несет сравнительно мало информации, потому что получателя оно не удивит. С другой стороны, количество информации в сообщении “В пустыне Сахара на этой неделе ежедневно шел дождь” намного больше и вполне стоит того, чтобы подороже заплатить за его пересылку. Шеннон хотел как-то передать этот смысл количества информации как “меры удивительности”. Он связан с другим смыслом (как “того, что не продублировано в других частях сообщения”), потому что повторы теряют свою способность удивлять. Заметьте, что шенноновское определение количества информации не зависит от того, истинна ли она. Придуманная им мера информации была остроумна и интуитивно соответствовала задаче. Давайте, предложил он, оценим количество незнания или неопределенности знаний получателя до получения сообщения, а затем сравним его с количеством оставшегося незнания после получения сообщения. Сокращение количества незнания и будет количеством переданной информации. Шенноновская единица измерения информации — бит (bit), от binary digit (двоичная цифра). Один бит определяется как количество информации, необходимое, чтобы первоначальная неопределенность сократилась вдвое, как бы велика она ни была (читатели-математики заметят, что бит, таким образом, относится к логарифмическим единицам измерения).
На практике вначале нужно найти способ измерения априорной неопределенности — той, что сокращается, когда поступает информация.
Компьютерная информация содержится в последовательностях нолей и единиц. Есть только два возможных варианта, поэтому 0 или 1 в каждом положении содержит один бит информации. Объем памяти компьютера или емкость диска или ленты часто измеряется в битах и представляет собой суммарное число нолей или единиц, которые это устройство может содержать. Для некоторых целей более удобной единицей измерения служит байт (восемь бит), килобайт (тысяча байт), мегабайт (миллион байт) или гигабайт (тысяча миллионов байт) [121] . Заметьте, что эти числа относятся к суммарной имеющейся емкости. Это максимальное количество информации, которую можно записать на данное устройство. Реальное количество записанной информации — это нечто иное. К примеру, емкость моего жесткого диска — 4,2 гигабайт. Из них в настоящий момент около 1,4 гигабайт реально использованы для хранения данных. Но даже это не настоящее количество информации (в шенноновском смысле слова) на моем диске. Настоящее количество информации меньше, потому что ту же информацию можно записать экономнее. Некоторое представление о настоящем количестве информации можно получить, воспользовавшись одной из замечательных программ-архиваторов вроде Stuffit. Эта программа ищет избыточность в последовательности нолей и единиц и ощутимо сокращает эту последовательность путем перекодировки, очищая ее от внутренней предсказуемости. Максимального сжатия информации можно было бы добиться (на практике это, по-видимому, невозможно), если бы каждая единица или ноль удивляли бы нас в равной степени. Прежде чем передавать большие объемы информации через интернет, ее обычно архивируют, сокращая ее избыточность [122] .
121
Эти круглые цифры — десятичные приближения. В компьютерном мире стандартные метрические приставки кило-, гига- и т. п. заимствованы для обозначения ближайшей удобной степени двойки. Поэтому килобайт — это не тысяча байт, а 210, или 1024 байт, а мегабайт — не миллион байт, а 220, или 1 048 576 байт. Если бы эволюция дала нам не десять, а восемь или шестнадцать пальцев, компьютер, быть может, изобрели бы столетием раньше. Теоретически мы могли бы теперь решить учить всех детей восьмеричной, а не десятеричной арифметике. Мне бы очень хотелось, чтобы так и попробовали сделать, но, рассуждая реалистически, я понимаю, что огромные краткосрочные затраты на этот переход перевесили бы его несомненную долгосрочную выгоду. Начать с того, что нам всем пришлось бы вновь учить таблицу умножения.
122
Одно из успешных приложений этого аспекта теории информации — идея Хораса Барлоу, что сенсорные системы устроены так, чтобы очищать свои сообщения от солидных объемов избыточности, прежде чем передавать их в мозг. Один из способов это сделать состоит в том, чтобы передавать сигналы об изменениях в окружающем мире (математики назвали бы это дифференцированием), вместо того чтобы докладывать постоянно о текущем его состоянии (что отличалось бы высокой избыточностью, потому что оно не меняется быстро и беспорядочно). Эта идея Барлоу обсуждается в моей книге “Расплетая радугу”: Dawkins, R. Unweaving the Rainbow. London, Penguin, 1998; Boston, Houghton Mifflin, 1998, pp. 257-266.
Все это хорошо с точки зрения экономики. Но с другой стороны, сохранять некоторую избыточность в сообщениях, ради исправления ошибок, тоже неплохая идея. Если в сообщении, совершенно лишенном избыточности, произошла ошибка, восстановить его исходный смысл уже никак невозможно. В машинные коды часто преднамеренно включают избыточные “биты контроля четности”, помогающие находить ошибки. У ДНК тоже есть различные механизмы исправления ошибок, основанные на избыточности. Когда я перейду к разговору о геномах, я вернусь к разнице между упомянутыми тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации.
Открытие Шеннона состояло в том, что информацию любого рода, независимо от ее смысла, ее истинности или ложности, ее физического носителя, можно измерять в битах и переводить на любой другой носитель. Великий биолог Джон Б. С. Холдейн использовал теорию Шеннона, чтобы подсчитать число бит информации, передаваемое рабочей пчелой своим соседям по улью, когда она “танцует”, сообщая о местоположении источника пищи (около трех бит, чтобы сообщить направление на этот источник, и еще три бита, чтобы сообщить расстояние до него). В тех же самых единицах, как я недавно подсчитал, мне понадобилось бы сто двадцать мегабит машинной памяти моего лэптопа, чтобы записать торжественные вступительные аккорды симфонической поэмы Рихарда Штрауса “Так говорил Заратустра” (“тема из ‘Космической одиссеи 2001 года’”), которые я хотел проиграть в середине одной лекции об эволюции. Экономический метод Шеннона также позволяет сосчитать, сколько модемного времени потребуется, чтобы послать полный текст книги издателю в другую страну. Спустя пятьдесят лет после открытия Шеннона его идея информации как предмета потребления, такого же измеримого и взаимопревраща-емого, как деньги или энергия, окончательно вступила в свои права.
ДНК переносит информацию очень по-компьютерному, и емкость генома тоже можно, если захочется, измерять в битах. В ДНК используется не двоичный код, а четверичный. В то время как в компьютере единица информации — это 1 или 0, в ДНК это Т, А, С или G. Сколько информации будет передано от меня к вам, если я сообщу вам, что в
123
Химик скорее спросил бы: “Это производное пиримидина?” — но в моем примере такой вопрос мог бы сбить с толку. Лишь случайно получилось так, что четыре буквы алфавита ДНК оказались распределены поровну между двумя группами химических соединений, производными пурина и пиримидина.
Во всех случаях, когда априорную неопределенность знаний получателя можно выразить как число равновероятных альтернатив N, количество информации в сообщении, сводящем эти альтернативы к одной, составляет log2N (степень, в которую нужно возвести двойку, чтобы получить число альтернатив N). Если выбрать карту — любую карту — из обычной колоды, то сообщение, какая это карта, будет нести log252, или 5,7 бит информации. Иными словами, если бы мы сыграли в большое число игр на угадывание, нам потребовалось бы в среднем 5,7 вопроса, требующих ответа “да” или “нет”, чтобы угадать эту карту, при условии, что мы будем задавать вопросы самым экономным способом. Первые два вопроса позволили бы нам узнать масть (например, “Она красная?” и “Это бубны?”), а оставшиеся три или четыре — успешно разделить и проверить всю эту масть (“Старше шестерки?” и тому подобное), в итоге неминуемо придя к искомой карте. Когда априорная неопределенность представляет собой своего рода смесь альтернатив, которые не равновероятны, формула Шеннона преобразуется в немного усложненную формулу для расчета взвешенного среднего, которая, впрочем, по сути аналогична. Кстати, шенноновская формула взвешенного среднего — это именно та формула, которую физики с XIX века используют для расчета энтропии. Отсюда следуют интересные вещи, но здесь я не буду их рассматривать [124] .
124
Эту формулу используют также экологи в качестве коэффициента разнообразия.
Этих сведений из теории информации будет достаточно. Эта теория давно привлекает меня, и я использовал ее в некоторых своих научных работах разных лет. Теперь давайте подумаем, как ее можно использовать, чтобы ответить на вопрос, увеличивается ли количество информации в геномах в ходе эволюции. Во-первых, давайте вспомним разницу между тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации, записанной самым экономным из всех возможных способов. Суммарная информационная емкость человеческого генома измеряется в гигабитах. У обыкновенной бактерии кишечной палочки (Escherichia coli) она измеряется в мегабитах. Мы, как и все другие животные, происходим от предка, которого, если бы у нас сегодня была возможность его исследовать, мы отнесли бы к бактериям. Итак, за миллиарды лет эволюции, прошедшие со времени жизни этого предка, информационная емкость нашего генома могла вырасти где-то на три порядка (степени десятки) — примерно в тысячу раз. Это довольно правдоподобно и утешительно для человеческого достоинства.
Должны ли мы тогда чувствовать, что человеческое достоинство унижает тот факт, что у гребенчатого тритона (Triturus cristatus) емкость генома оценивается в сорок гигабит — на порядок больше, чем у человека? Нет, потому что большая часть емкости генома любого животного в любом случае не используется для хранения полезной информации. Существует множество нефункциональных псевдогенов (см. ниже) и множество повторяющихся бессмысленных последовательностей, полезных для судебно-медицинских экспертов, но не транслируемых в живых клетках в белки. У гребенчатого тритона “жесткий диск” вместительнее, чем у нас, но поскольку основная часть жесткого диска у обоих наших видов не используется, нам не стоит обижаться. У родственных гребенчатому видов тритонов геномы гораздо меньше. Зачем Создателю понадобилось так произвольно и нечестно разыграть размеры генома между тритонами — проблема, над которой могли бы поразмыслить креационисты. С эволюционной точки зрения все объясняется просто [125] .
125
Мое предположение (“Эгоистичный ген”, 1976), что избыточная ДНК — это некий паразит, было подхвачено другими учеными (“эгоистичная ДНК”). См. второе издание “Эгоистичного гена”: Dawkins, R. The Selfish Gene, 2nd edn. Oxford University Press, 1989, pp. 44-45, 275.
Ясно, что суммарная емкость геномов весьма изменчива во всех царствах живой природы и должна была сильно меняться в ходе эволюции, вероятно в обоих направлениях. Потери генетического материала называют делециями. Новые гены возникают посредством разных форм дупликации. Это можно хорошо проиллюстрировать на примере генов гемоглобина — сложной белковой молекулы, переносящей кислород в крови.
Гемоглобин взрослого человека составлен из четырех белковых цепочек, называемых глобинами, сплетенных друг с другом. Их подробные последовательности показывают, что четыре цепочки глобинов близкородственны друг другу, но не идентичны. Две из них называют альфа-глобинами (каждый из них представлен цепочкой из 141 аминокислоты), а еще две — бета-глобины (каждый из них представлен цепочкой из 146 аминокислот). Гены, кодирующие альфа-глобины, находятся в 11-й хромосоме, а гены, кодирующие бета-глобины, в 16-й хромосоме. В каждой из этих хромосом имеется кластер из расположенных подряд генов глобинов, разделенных вкраплениями из некоторого количества “мусорной ДНК”. Альфа-кластер, на 11-й хромосоме, содержит семь генов глобинов. Четыре из них — псевдогены: варианты генов альфа-глобина, испорченные ошибками в их последовательностях и не транслируемые в белки. Два — настоящие альфа-глобины, используемые у взрослого человека. Последний называется дзета-глобином и используется только у эмбрионов. Сходным образом и бета-кластер, на 16-й хромосоме, содержит шесть генов, из которых часть выключены, а один используется только у эмбриона. Гемоглобин взрослых, как мы уже поняли, содержит две альфа- и две бета-цепочки.