Простое начало. Как четыре закона физики формируют живой мир
Шрифт:
Чтобы установить последовательность всего генома, нужно виртуально соединить друг с другом все фрагменты. В 1982 году мы собрали полный геном бактериального вируса из 40 тысяч оснований, малый фрагмент которого в 1968 году прочитали Ву и Гилберт. Геном дрожжей S. cerevisiae (12 миллионов оснований) полностью секвенировали в 1996-м, а геном круглого червя C. elegans (100 миллионов оснований) – в 1998-м. Но самой желанной целью был, конечно же, геном Homo sapiens. Секвенирование по Сэнгеру в принципе могло бы справиться с этой задачей, но применение этого метода в отношении генома с миллиардами оснований представлялось огромным технологическим вызовом. Такая задача требовала усовершенствований не только в биохимии – связанных, например, с терминирующими нуклеотидами, – но и в инструментарии физической работы с ДНК: нужно было повышать скорость и надежность плавления и перемещения молекул, детекции световых сигналов и многого другого.
В 1988 году Конгресс
Вам, возможно, интересно, чей геном тогда секвенировали. В обоих проектах геномы были коллективными: ДНК брали у нескольких человек, и разные прочитанные фрагменты от разных людей должны были дать общую для нашего вида картину. В итоге, однако, вышло так, что большая часть генетического материала принадлежала двум персонам: в проекте «Геном человека» – вроде бы анониму из города Буффало в штате Нью-Йорк, а в проекте Вентера – анониму, которым, как выяснилось позже, был… сам Крейг Вентер. Эти люди, разумеется, не представляют все человечество: чтобы изучить целый вид, нам нужно добыть его статистический портрет, то есть секвенировать гораздо больше человеческих геномов. Точно так же, если бы у меня обнаружили рак, мой врач захотел бы взглянуть на геном моих, а не средневидовых, злокачественных клеток. Чтобы преодолеть эти ограничения, требовались гораздо более быстрые и дешевые технологии. К счастью, их внедрение было уже не за горами.
При общей стоимости 3 миллиарда долларов чтение каждой пары оснований в проекте «Геном человека» обходилось примерно в доллар. Это было поразительным достижением с учетом того, что еще не сменилось даже поколение, не знавшее структуру ДНК, но все же недостаточным, чтобы применять такую технологию рутинно. В начале XXI века появилось несколько новых хитроумных методов, разработанных отчасти благодаря госфинансированию инноваций в сфере секвенирования. В совокупности эти методы второго поколения называют еще высокопроизводительными, но чаще просто секвенированием нового поколения4. В секвенировании первого поколения (по Сэнгеру) намноженные фрагменты читаются по очереди. Их смешивание обернулось бы катастрофой, поскольку мы потеряли бы уникальное соответствие между длиной оборванного субфрагмента и его меченым нуклеотидом-терминатором. В методы второго поколения изначально заложена параллельность: они позволяют анализировать множество фрагментов одновременно, а в ряде случаев даже читать цепи ДНК по мере их синтеза. Давайте познакомимся с несколькими новыми методами. Различаясь массой деталей, все они используют физические свойства ДНК и (или) связанных с ДНК материалов.
Пиросеквенирование появилось отчасти благодаря удивительным способностям светлячков5. Как мы знаем, ДНК-полимераза прикрепляет новые нуклеотиды к растущим нитям ДНК. Тщательно пересчитав атомы в составе свободного нуклеотида и в составе встроенного в нить, мы обнаружим, что соответствие между ними не полное. В ходе реакции пришивания нуклеотида к цепочке ДНК высвобождается крошечная молекула из двух атомов фосфора и семи атомов кислорода – пирофосфат. Особый белок в составе смеси для пиросеквенирования превращает пирофосфат в АТФ – энергетическую молекулу, которую клетки используют для разных операций. Одна из них – светоиспускающая химическая реакция, выполняемая белками люциферазами, которые расходуют АТФ в качестве топлива. (В переводе с латыни lucifer означает «несущий свет».) Такие организмы, как светлячки, жуки-щелкуны и светящиеся грибы, сами производят люциферазы. Как мы узнали, рассматривая в главе 2 зеленый флуоресцентный белок медузы, многообразие жизни предоставляет нам уйму инструментов, которые можно творчески приспособить для множества задач.
Пиросеквенирование работает следующим образом. Как и в методе Сэнгера, все начинается с множественного копирования фрагментов ДНК и их разделения на одиночные цепи нагреванием. И снова ДНК-полимераза строит вторую, комплементарную цепь по матрице одиночной. Представьте, что у нас в реакционной лунке закреплена единственная одноцепочечная молекула ДНК. Ученый наливает в эту лунку раствор, содержащий люциферазу и другие ингредиенты, но из четырех типов нуклеотидов там есть только один – скажем, А. Если за этим следует световой импульс, значит, ДНК-полимераза встроила А в растущую цепь, то есть он оказался подходящим, комплементарным первому неспаренному нуклеотиду матрицы. Если вспышки нет, А не подошел и нужно пробовать другие нуклеотиды. Ученый выливает из лунки раствор с A и трижды повторяет процесс – с Ц, Г и T. Лишь в одном случае из четырех он видит вспышку света. Теперь очередная буква известна. Повторяя процесс снова, он по излучению кванта света узнает следующую букву, затем еще одну и так далее. То есть ДНК читается по мере синтеза ее комплемента.
Я не объяснил, как можно распараллелить процесс. Помимо этой задачи у метода крайне высоки требования к чувствительности: высвобождение единственного пирофосфата должно неизбежно вести к тому, чтобы единственная люцифераза испустила одиночный, очень слабый световой импульс, который мы во что бы то ни стало обязаны засечь. Если на любом из этапов произойдет сбой, мы пропустим букву. Обе задачи, параллелизм и надежность, решаются с помощью одной физической тактики – объединения идентичных фрагментов ДНК в массивы.
Как и в секвенировании по Сэнгеру, геномную ДНК дробят на случайные фрагменты длиной до тысячи оснований, к их концам пришивают короткие универсальные адаптеры с известными нуклеотидными последовательностями. Затем плавлением разделяют все фрагменты на отдельные цепи (см. главу 1) и смешивают в растворе с микроскопическими шариками, к поверхности которых привязаны маленькие «якоря», комплементарные одному из ДНК-адаптеров. Пропорции смеси продумывают так, чтобы шариков оказалось значительно больше, чем ДНК, и вероятность заякоривания на каждом шарике сразу нескольких фрагментов ДНК стремилась к нулю.
Шарики и ДНК плавают в водном растворе. Если смешать его с маслом, при взбалтывании или в потоке образуются окруженные маслом капли раствора, заключающие в себе не более одного шарика и размером не сильно его превосходящие.
Те самые «якоря» на поверхности шариков служат праймерами для инициации синтеза цепи ДНК, комплементарной взаимодействующему с якорем фрагменту. В каждой капле раствора содержится все необходимое для ПЦР [52] : ДНК-полимераза, нуклеотиды и праймеры для последующих раундов репликации. Так в капле можно создать около миллиона копий исходного фрагмента. По окончании репликации капли собирают вместе и добавляют к ним мыло или спирт, чтобы уменьшить силу поверхностного натяжения, благодаря которой каждая капля в масле оставалась изолированной (см. главу 11). Капли сливаются, и раствор течет по плашке с крошечными лунками диаметром чуть больше шарика. В результате в каждую лунку попадает по одной сфере, покрытой множеством одинаковых двуцепочечных ДНК; одна из цепей каждого дуплекса удерживается на шарике якорными праймерами. Когда мы плавим эту ДНК и смываем высвобожденные нити, у нас остается множество распределенных по лункам сфер, каждая из которых покрыта своим типом леса из идентичных однонитевых ДНК.
52
Эта разновидность ПЦР называется эмульсионной (из-за протекания в водно-масляной эмульсии). Она создает в капле целые молекулярные колонии за счет клональной амплификации единственного фрагмента из библиотеки одноцепочечных фрагментов генома (принцип понятно, но не идентично показан, например, в коротких видео: https://www.youtube.com/watch?v=qKouzbp1RWI и https://www.youtube.com/watch?v=N9rh_EPYnbA). В разных каплях параллельно множатся разные фрагменты. Такая предварительная амплификация работает на усиление сигнала в разных видах секвенирования.
Теперь можно приступать к пиросеквенированию и фиксировать в каждой лунке вспышки света. Они возникают то и дело по мере синтеза цепей ДНК, комплементарных миллиону связанных с шариком матриц. Соответственно, вспышки эти в миллион раз ярче, чем при испускании света одной молекулой ДНК. Если в последовательности ДНК несколько раз подряд повторяется одна и та же буква, яркость вспышки растет пропорционально числу повторов (до некоторого предела): двойная А, например, дает вспышку вдвое ярче. Ученые, а точнее их аппараты, фиксируют последовательность и интенсивность световых сигналов и таким образом читают ДНК.