Геном человека. Энциклопедия, написанная четырьмя буквами
Шрифт:
Можно представить себе микрочипы недалекого будущего, на которые будут нанесены все известные гены, определяющие типы реакции на то или иное лекарственное средство. Это изменит полностью сам характер фармацевтической промышленности. Из изготовителей стандартной продукции и продавцов «универсальных» лекарств фирмы превратятся в поставщиков высококачественных медицинских услуг с выгодой как для себя, так и для экономики здравоохранения в целом. А конкретный пациент может оказаться в большем выигрыше за счет более точного назначения «индивидуальной пилюли» с улучшенными свойствами.
Нет сомнения, что фармакогеномика способна революционизировать процессы поиска генов и белков-мишений, а также создания лекарств и тестов на восприимчивость к ним, разработать схемы правильного применения различных медицинских средств. В широком смысле речь идет о создании на ее основе индивидуализированной (персонифицированной)
Согласно прогнозам американской консалтинговой компании «Front Line Strategic Management Consulting», к 2010 г. благадаря использованию фармакогеномики произойдет сокращение расходов на лечение больных в США приблизительно на 1 млрд. долларов. В результате применения тестов на снипсы для предварительного скрининга пациентов в отношении реакции организма на определенный лекарственный препарат более чем на 32 % повысится эффективность медикаментозного лечения и на 25 % сократится число побочных реакций.
КОМПЬЮТЕР ВМЕСТО ПРОБИРКИ (геноинформатика)
Конечно, обдумывай «что»,
но еще больше обдумывай «как».
Одной из особенностей, характерных для многих современных наук, включая и генетику, заключается в активном использовании в ней передовых достижений информационных технологий. Секвенирование генома человека и развитие такого направления, как геномика, пришлось на то время, которое по праву называют информационным. И все это произошло не случайно.
Многие ученые отмечают, что никогда еще в биологии не было такого положения дел, как сейчас. Раньше у нас было мало фактов, но существовало огромное количество гипотез, что соответствовало известному закону Мэрфи. Но теперь, благодаря успехам в определении генома человека и ряда других организмов, генетика из относительно бедной фактами превратилась в чрезвычайно богатую информацией науку. Энциклопедия под названием «Геном человека», которую «восстановили» из небытия на рубеже двух тысячелетий, содержит такой гигантский объем информации, который просто невозможно переварить человеческому мозгу. Издавать ее в печатном виде не имеет никакого смысла — ведь никто не в состоянии ее прочесть и понять. И здесь на помощь человеку пришли компьютеры. На этой основе появилось новое направление в науке биоинформатике — компьютерная геномика, которая призвана с помощью математических методов понять и осмыслить всю ту информацию, которая содержится в Энциклопедии человека.
В течение многих лет изучение генов и их функций основывалось на экспериментах в системах in vivo (в живом) и in vitro (в пробирке). Лишь в 80-х годах на помощь экспериментаторам пришло мощное дополнение — компьютер. Появилось и свое латинское обозначение для этого подхода — in silico, то есть в компьютере. Компьютеры были сконструированы еще в 60-е годы, но тогда они были лишь вспомогательным средством для обработки и хранения ограниченного объема данных. Техника постепенно совершенствовалась, и с конца 80-х началось создание баз данных, в которых теперь хранится информация о миллионах последовательностей нуклеотидов в ДНК и РНК и об огромном числе последовательностей аминокислот в белках.
Однако вся эта огромная информация в значительной мере была бы бесполезной без ее упорядочения и систематизации, подобно тому, как без инвентаризации книг в гигантских книгохранилищах просто невозможно найти нужную нам книгу. Компьютерная геномика стала заниматься тем же, чем до того занимались классическая биохимия и молекулярная биология, но не с использованием пробирки, а с помощью специальной компьютерной техники. Этот подход иногда называют «сухой» биохимией.
Чем полезен компьютер для изучения генома человека?
Без компьютерных биоинформационных технологий (геноинформатики, или, в более широком смысле, — биоинформатики) развитие геномных исследований вообще едва ли было бы возможным. Даже трудно себе представить, как бы ученые смогли собрать, классифицировать и разобраться с тем огромным объемом информации, которая заключена в двухметровой молекуле ДНК.
Обратим внимание читателя лишь на некоторые основные информационные задачи, которые необходимо было решать при изучении генома человека, а некоторые из них еще предстоит решить. В первую очередь нужно отметить то обстоятельство, что работа с геномами высших организмов, и особенно с геномом человека, — это работа с огромными объемами информации. Один миллион п. н. ДНК эквивалентен примерно 1 мегабайту (1 млн. байтов). Следовательно, для хранения в компьютере только информации о последовательности генома человека требуется не менее 3 гигабайт. Одной из важнейших задач для реализации программы «Геном человека» была организация процесса создания окончательного «текста», состоящего из миллиарда слов, десятков тысяч предложений и огромного числа страниц, собранных в 24 тома. Этот процесс с самого начала работ по программе «Геном человека» был прекрасно организован. Данные по секвенированию, получаемые в разных лабораториях мира, предварительно преобразовывались из аналоговых сигналов в цифровые для того, чтобы их можно было обрабатывать на компьютере. В Центре биомедицинских исследований Массачусетского технологического института в США круглосуточно принимались вновь собранные данные, автоматически регистрировались и архивировались. Все они сразу же автоматически привязывались к определенным хромосомам человека. Далее, каждая вновь поступившая последовательность нуклеотидов пересылалась по Интернету в GenBank — общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации (www.ncbi.nlm.nih.gov), а уже оттуда поступала в другие общедоступные базы данных во всем мире. Организаторы программы старались предоставить доступ к этим данным как можно быстрее и как можно большему числу пользователей. Трудно себе даже представить, как без использования компьютеров можно было бы из сотен тысяч «текстов», которые читались в отдельности разными исследователями в разных лабораториях мира, собирать гигантскую единую «Энциклопедию человека». Этот процесс напоминал собой сбор без предварительного рисунка гигантского паззла, состоящего из сотен тысяч мелких фигур, сваленных в кучу.
Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван ab initio) хорошо получается в случае относительно небольших геномов. Однако применительно к геному человека этот подход не всегда срабатывает в полной мере, т. к. гены человека часто устроены из маленьких экзонов и огромных интронов. Не отработаны также точные критерии для поиска не кодирующих белок генов. В этом заключается причина, почему до сих пор мы не можем назвать точное число генов в геноме человека, хотя он весь секвенирован.