Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей
Шрифт:
К сожалению, мы бы скорее успели колонизировать Марс, чем прочитать геном человека, используя этот метод. Человечество нуждалось в более совершенных методах чтения ДНК. В самой крупной базе данных научных публикаций Web of Science находится более 2,3 миллиона статей, в которых упоминается DNA (ДНК). Среди них на первом месте по количеству цитирований — статья, опубликованная все в том же 1977 году в журнале PNAS британским биохимиком Фредериком Сенгером [266] . На эту статью ссылались более 65 тысяч раз! Почти вдвое больше, чем на следующую в рейтинге. Сенгер описал метод «терминации цепи», который произвел настоящую революцию в области чтения ДНК благодаря удобной автоматизации процесса. В основе метода лежат особые «терминирующие нуклеотиды», которые отличаются от обычных тем, что стоит им встроиться в растущую нуклеотидную цепь, и синтез останавливается. Это происходит потому, что у меченых нуклеотидов
266
Sanger F. et al.: DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci USA 1977, 74(12):5463–7.
Для анализа ДНК по методу Сенгера, как и в случае с методом Гилберта и Максама, нужно было использовать четыре пробирки. Во все пробирки добавлялись анализируемый образец ДНК, ДНК-полимераза и обычные нуклеотиды. Кроме того, в каждую из пробирок добавлялось небольшое количество терминирующих нуклеотидов одного из четырех типов, помеченных радиоактивной меткой. Наконец, в каждую пробирку добавлялись праймеры. Обычно праймеры синтезируются путем последовательного химического соединения нуклеотидов. Они подбираются комплементарными некоторому уже известному участку анализируемой молекулы ДНК, продолжение которой мы хотим прочитать. Без праймеров ДНК-полимераза не может начать синтез.
В каждой из четырех пробирок происходит синтез ДНК, праймеры достраиваются до полноразмерных цепочек, последовательности растут, но как только присоединяется терминирующий нуклеотид, синтез останавливается, и чем раньше это произойдет, тем короче получится фрагмент ДНК. Поскольку терминирующие нуклеотиды представляют небольшую долю от общего числа нуклеотидов в смеси, получаются как короткие, так и длинные фрагменты ДНК. Дальше продукты реакций из четырех пробирок наносятся на гель (каждый в свою лунку), через который пускается ток. Фрагменты выстраиваются по длине, делается снимок радиоактивности, по которому восстанавливается последовательность ДНК.
В 1985 году метод Сенгера был доработан в лаборатории Лероя Худа. Там придумали, как заменить радиоактивную метку на четыре типа флуоресцентных меток: были получены терминирующие нуклеотиды, каждый из которых имел свой цвет [267] . Теперь все реакции можно было проводить в одной пробирке. Поскольку окрашены только терминирующие нуклеотиды, а при их присоединении синтез ДНК останавливается, каждая молекула ДНК будет окрашена в тот цвет, в который был окрашен последний присоединенный к ней (терминирующий) нуклеотид. Как и раньше, терминирующих нуклеотидов добавлялось совсем немного, чтобы получались последовательности всех возможных длин. Эти последовательности разделялись по длине на геле, но дальнейший анализ делала машина, которая самостоятельно считывала цвет каждой полоски на геле и определяла по цвету, какая там буква. Так был создан прибор для автоматизированного чтения ДНК.
267
Smith L.M. et al.: Fluorescence detection in automated DNA sequence analysis. Nature 1986, 321(6071):674–9.
В 1980 году Сенгер получил вторую Нобелевскую премию по химии (первая была присуждена ему еще в 1958-м за определение аминокислотной последовательности белка инсулина — первого прочитанного белка), а его метод в различных модификациях еще долгие годы был основным методом чтения ДНК. Сначала с его помощью был прочитан первый ДНК-геном — геном бактериофага 9X174, длиной 5386 нуклеотидов, потом в 1995 году был прочитан первый полный геном клеточного организма, гемофильной палочки Haemophilus influenzae [268] , возбудителя пневмонии и менингита. Геном этой бактерии имел длину 1830137 нуклеотидов! В 1998 году был прочитан первый геном многоклеточного животного, круглого червя Caenorhabditis elegans [269] (уже 98 миллионов нуклеотидов!). В 2000-м — первый растительный геном Arabidopsis thaliana [270] (157 миллионов нуклеотидов!). Тем временем уже вовсю шла работа над проектом по чтению генома человека, количество нуклеотидов в котором, как мы уже знаем, около трех миллиардов.
268
Fleischmann R.D. et al.: Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995, 269(5223):496–512.
269
Genome sequence of the nematode C. elegans: a platform for investigating biology. Science 1998, 282(5396):2012–8.
270
Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 2000, 408(6814):796–815.
Идея
Позволю себе предположить, что международный проект по чтению генома человека затянулся бы не на тринадцать, а на все двадцать лет, если бы не старания весьма амбициозного ученого — Крейга Вентера. Крейг Вентер и его компания Celera Genomics, основанная в 1998 году, сыграли примерно такую же роль в истории геномики, как Советский Союз в истории полета американцев на Луну. Вентер заявил, что его компания закончит расшифровку генома человека раньше, чем завершится международный проект, а именно к 2001 году. Международный проект задерживался и, по новым оценкам, должен был завершиться в 2005-м. Причем сделать геном человека Вентер собирался не за миллиарды долларов, а всего за 300 миллионов благодаря новому подходу к чтению ДНК, названному whole genome shotgun (раздробление генома, или «метод дробовика») и основанному на фрагментации ДНК и чтении случайных коротких участков генома в произвольном порядке.
«Мы сделаем геном человека, а вы можете сделать мышь», — ехидно предложил Вентер своим конкурентам.
Этот период вошел в историю геномики как время «геномных войн». Научное сообщество всполошилось! Дело было не только в том, что Вентер собирался утереть нос членам уважаемых международных коллективов, но и в том, что компания Celera Genomics собиралась заработать на проекте, создав полную базу данных генетических последовательностей, платную для всех, кто хотел бы пользоваться ею в коммерческих целях. В первую очередь это касалось фармацевтических компаний. Тогда шли острые споры о возможности патентования генетических последовательностей, и было неясно, что случится, если первой до генома человека доберется коммерческая Celera, а не финансируемые из бюджета научные организации.
Чем отличается метод дробления ДНК от тех методов, которые использовал международный консорциум по чтению генома человека? Обычные методы подразумевают последовательный анализ генома: мы шагаем по хромосомам, читая фрагмент за фрагментом. Концы предыдущих прочитанных фрагментов выступают затравками для чтения новых и так далее. Этот подход надежен и неизбежно приводит к нужному результату, не требует каких-то сложных алгоритмов для анализа данных, но очень медлителен и требует серьезных усилий со стороны ученых-экспериментаторов, которым приходится ставить эксперимент за экспериментом, реакцию за реакцией.
Метод раздробления генома начал применяться для чтения коротких фрагментов ДНК еще в 1979 году [271] , но мало кто верил, что с его помощью можно будет прочитать большой геном. Мы взяли ДНК, раздробили, прочитали разрозненный набор фрагментов, которые называются чтениями. И что дальше? Как мы все это соберем? И можно ли вообще собрать такой «пазл»? Задача по «сборке» генома из чтений легла на специалистов в области вычислительной биологии — биоинформатики, еще одного бурно развивающегося направления современной науки.
271
Staden R.: A strategy of DNA sequencing employing computer programs. Nucleic Acids Res 1979, 6(7):2601–10.
Возьмем множество прочитанных фрагментов ДНК. Найдем такую пару последовательностей, которые имеют хорошее перекрытие, объединим их и получим более длинный фрагмент. Последовательно сшивая перекрывающиеся фрагменты, мы будем получать все более длинные последовательности, пока в идеале не получим целые хромосомы. Иллюстрация такого объединения фрагментов приведена ниже.
На практике с таким подходом возникают определенные проблемы, которые приходится решать. Во-первых, каждое чтение получено из случайно взятой молекулы ДНК. Какие-то фрагменты ДНК по воле случая будут прочитаны по десять или даже по сто раз, а какие-то не будут прочитаны вовсе, и в нашем геноме появятся «дырки». Решается эта проблема тем, что мы делаем очень большое «покрытие» генома, чтобы в среднем на каждый участок приходились десятки, а то и сотни чтений. Увы, некоторые участки генома читаются очень плохо, и даже большое покрытие чтениями не всегда помогает. В таких случаях дырки можно попробовать залатать, применив альтернативные методы чтения ДНК.