Простое начало. Как четыре закона физики формируют живой мир, Партасарати Рагувир

Простое начало. Как четыре закона физики формируют живой мир

на обложку

Партасарати Рагувир

Шрифт:

Логично предположить, что чей-то набор ОНП сообщает нам не так уж и много, поскольку на эти точки приходится лишь малая доля генома, а геномы устроены сложно. Сначала так и было. В первых исследованиях по выявлению ОНП, связанных с ростом, обнаружили около 40 генетических вариантов, которые в совокупности хоть и отличимо от погрешности, но незначительно коррелировали с ростом участников эксперимента. Результаты исследований опубликовали в 2008 году, и сразу же стало очевидно, что изучать надо гораздо больше людей – даже не из-за биологии как таковой, а скорее из-за взаимосвязи между случайностью и предсказуемостью.

Вспомним главу 6 и подбрасывание монет. Представьте, что вы 10 раз подбросите подлинную монету. В среднем можно ожидать, что 5 раз выпадет решка, а 5 – орел, но вас наверняка не удивит, если решка выпадет 6 раз, а орел – 4. Вероятность такого исхода составляет целых 83 % от вероятности получения 5 к 5. Если вы подбросите монету 1000 раз, скорее всего, 500 раз выпадет решка и 500 – орел: с ростом числа попыток расхождение сглаживается. Вероятность выбросить 600

решек и 400 орлов существенно снизится и станет в миллиард раз меньше, чем вероятность выбросить 500 к 500. Допустим, вы подозреваете, что ваша монета – фальшивая и несбалансированная, из-за чего вероятность выбросить решку превышает 50 %. Если вы подбросите монету 10 раз, асимметрия вас не особо смутит: обнаружив 6 решек, вы вряд ли сразу же сделаете вывод о 60-процентной вероятности выпадания решки у этой монеты. Однако 600 решек после 1000 подбрасываний сильно укрепят ваши подозрения в «неправильности» монеты. Если быть математически точными, ваша чувствительность к фальшивым монетам растет пропорционально квадратному корню из числа подбрасываний. Этот квадратный корень, возможно, напоминает вам о статистических свойствах нашего случайного блуждающего из шестой главы. И не случайно: у этих зависимостей сходные математические обоснования.

Но вернемся к геному. Наши ОНП сравнимы с монетами, и перед нами стоит задача выяснить, в какой степени каждый из них «правильный» или «неправильный», то есть как сильно тот или иной ОНП влияет на отклонение признака от средней, ожидаемой величины. ОНП, где редкий генетический вариант с равной вероятностью встречается у высоких и низких людей, аналогичен правильной монете, которая в половине случаев ложится решкой, а в половине – орлом. Тот вариант ОНП, что заметно чаще встречается у высоких либо, наоборот, у низких, вероятно, задает предрасположенность к росту выше или ниже среднего – как неправильная монета предрасполагает к тому, чтобы общая доля выпавших решек всегда была либо больше, либо меньше 50 %. Эти тенденции могут быть не сильно выраженными. По аналогии с подбрасыванием множества монет нам нужно исследовать геномы как можно большего числа людей. Чтобы оценить масштаб отклонения от среднего показателя под влиянием того или иного ОНП, нужно проанализировать огромный массив данных по корреляции роста человека с нуклеотидом в этой точке его генома. Чем больше геномов мы анализируем, тем выше становится наша чувствительность к ОНП, связанным с ростом.

Мы живем в эпоху крупномасштабных исследований генома. Физик Стивен Хсу и его коллеги из Университета штата Мичиган обработали данные почти полумиллиона человек, собранные в рамках британского проекта «Биобанк», и по статистическим параметрам выявили ОНП, связанные с ростом. Они обнаружили гораздо больше тех 40 ОНП из работы 2008 года – почти 20 тысяч. Такие проекты сопряжены с рядом трудностей, и ложные закономерности могут легко сбить с толку. Достоверность результатов можно проверить математическим путем, но предпочтительнее оценить предсказательную способность ОНП, ассоциированных исследователями с ростом участников этого эксперимента, то есть проверить, могут ли эти ОНП служить предикторами роста в другой экспериментальной выборке. Иными словами, группе Хсу нужно было проанализировать основную часть базы данных «Биобанка» (то есть не все данные) и заметить, например, что ОНП № 312 соответствует увеличению роста в среднем на 0,05 сантиметра относительно среднего показателя; ОНП № 3092 соответствует его уменьшению на 0,02 сантиметра; ОНП № 4512 – увеличению на 0,08 сантиметра и так далее. Затем во второй, до сей поры не задействованной части базы данных нужно было найти «подозреваемые» ОНП у каждого ее члена, суммировать предположительные эффекты найденных полиморфизмов и предсказать рост этого человека – и так для всех представителей выборки. Оставалось лишь сравнить предсказанные показатели с реальными. Хсу с коллегами проделал все это и изложил результаты в статье 2018 года3. Ученые обнаружили, что записанный в базе данных рост, как правило, отклонялся от прогноза, сделанного на основании ОНП, не больше чем на 3 сантиметра. Чтобы лучше понять, как выглядит подобного рода точность, построим несколько графиков.

На каждом графике показано облако гипотетических значений, где предсказанный рост отложен по горизонтальной оси, реальный – по вертикальной, а каждая точка соответствует одному человеку. Реальные и спрогнозированные показатели роста коррелируют друг с другом на всех трех графиках. Более того, прямая, лучше всего соответствующая распределению данных, на всех графиках почти идентична. Однако между этими тремя случаями есть существенные различия в том, насколько хорошо она описывает данные. Левое облако сильно рассеянное, в среднем точки выстраиваются кучнее и ближе к линии, в правом измеренные значения довольно плотно группируются вокруг предсказания. Эту изменчивость в распределении данных можно количественно оценить с помощью статистической характеристики, называемой коэффициентом вариации и часто обозначаемой символом R2. Чтобы интуитивно понять смысл R2, представьте сначала, что вы измеряете степень разброса точек вокруг горизонтальной прямой, идущей посередине графика. (Если вы немного знакомы со статистикой, вообразите дисперсию, или меру рассеивания, результатов измерений, то есть величину отклонения измеренных значений от среднего.) Затем представьте, что вы оцениваете разброс точек вокруг прямой наилучшего соответствия. В этом случае степень изменчивости будет меньше – это то, что остается после принятия в расчет зависимости, выражаемой прямой. Отношение второго отклонения (разброса) к первому равняется числу от нуля до единицы, которое тем меньше, чем плотнее точки прилегают к прямой наилучшего соответствия. Если вычесть это число из единицы, получится разброс, описываемый линейной зависимостью, то есть R2. На левом графике с рассеянным облаком R2 = 0,1, то есть зависимость между предсказанными и реальными значениями, выражаемая линией наилучшего соответствия, учитывает лишь 10 % разброса точек. На правом графике R2 = 0,7, то есть учитывается 70 % разброса.

В основанном на ОНП анализе роста, проведенном командой Хсу, R2 ? 0,42 – это примерно как на среднем графике: не идеально плотное распределение, но и не бесформенное облако, что вполне соответствует упомянутой точности до 3 сантиметров. Быть может, отклонение в 3 сантиметра не слишком впечатляет, но, как выясняется, такой прогноз точнее, чем предсказание роста детей по росту их родителей. Кроме того, оценка на основании ОНП, разумеется, не требует никаких сведений об отличительных чертах и происхождении индивида – хватает ДНК и дешевого анализа. Как отмечает Хсу, ничтожной биологической улики с места преступления теперь достаточно, чтобы установить рост и ряд других физических показателей совершенно неизвестного человека.

Насколько показательным может быть R2 роста? Из семейных исследований с большой выборкой людей разной степени родства, включая однояйцевых близнецов (чьи геномы почти идентичны), генетики давно знали, что наследуемость роста близка к 80 %. Иными словами, наследственность объясняет около 80 % разницы в росте между индивидами4. Но чем объяснить разрыв между 0,4 и 0,8 – влиянием особенностей ДНК, не охватываемых анализом ОНП, или более загадочными биологическими механизмами? В 2019 году австралийский генетик Питер Виссхер и его коллеги изучили полногеномные последовательности более чем 20 тысяч человек и обнаружили, что информация, закодированная в ДНК, действительно объясняет 80 % разницы в росте у людей. Остальные 20 %, по крайней мере у современных европейцев, связаны с различиями в рационе, физической активности и истории болезней.

Как улучшить курицу…

Разумеется, все эти изыскания применимы не только к людям. Вместо роста своих сородичей мы вполне могли бы поинтересоваться вкладом генетических факторов в вариативность пятен у леопарда, лепестков у розы или массы у амеб. Управлять изменчивостью признаков живых существ критически важно для сельского хозяйства. За период с 1930 по 1970 год численность населения нашей планеты удвоилась с 2 до 4 миллиардов человек и с тех пор удвоилась снова. Этот головокружительный рост не сопровождался массовым голодом благодаря ряду новаторских решений. Так, ключевым элементом зеленой революции 1950–1960-х стало селекционное выведение новых сортов пшеницы и риса. Американский агроном Норман Борлоуг, в середине XX века работавший в Мексике, вывел особые сорта пшеницы с крупными колосьями5. Однако такие растения грешили склонностью к полеганию – как мы помним из главы 10, большим быть нелегко. Скрестив их с карликовыми сортами – мутантами из Японии, – Борлоуг получил крепкую высокоурожайную пшеницу. Считается, что благодаря этому и подобным достижениям Борлоуг сохранил миллиард человеческих жизней.

Мы хотим, чтобы пшеница была ниже, а куры – больше. Сегодня североамериканские куры, выращиваемые на мясо, в четыре раза тяжелее, чем их сородичи в 1950-х, даже при аналогичном откорме6. (Чтобы понять, насколько значительно это увеличение, вообразите мир, в котором человек весит в среднем 320 килограммов.) У кур бывает разная конституция, что отчасти объясняется генетикой: современные увесистые куры-переростки появились в результате последовательного отбора самых крупных особей для размножения. Кстати, упомянутое исследование Виссхера и его коллег приписало генетическим различиям около 40 % разницы в индексе массы тела – показателе соотношения массы и роста.

Сегодня, отбирая растения и животных для скрещивания, можно опираться не только на очевидные характеристики, но и на ОНП. Например, выбрав крупную курицу и крупного петуха, мы можем получить крупных цыплят, но было бы лучше, если бы увеличивающие размеры тела генетические варианты матери отличались от вариантов отца – так мы сильно повысим вероятность того, что у каждого их потомка будет целых два набора генетических предрасположенностей к крупным размерам, или, образно говоря, в геномную копилку цыплят попадут две разные несбалансированные монеты. Поэтому сейчас все чаще и чаще прибегают к сбору данных по ОНП, то есть к ОНП-генотипированию. Так, в 2019 году американская база данных молочного скота содержала генотипы 3 миллионов коров, самому старому из которых было 2 миллиона лет, а самому новому – два года7. Инструментарий и базы ОНП сейчас охватывают десятки сельскохозяйственных культур – от пшеницы до томатов и подсолнечника.