Геном человека. Энциклопедия, написанная четырьмя буквами
Шрифт:
Третья, не менее важная задача геноинформатики, касающаяся генома человека, — создание книги под названием «Функционирующий геном». Информация о геноме человека, накопленная сейчас в базах данных, касается в основном одного аспекта организации геномной ДНК, а именно ее первичной структуры, то есть последовательности нуклеотидов. Но для описания функциональных особенностей геномов, например особенностей регуляции экспрессии содержащихся в них генов, структуры и функции кодируемых ими белков и др. потребуются неимоверно большие объемы информации. Например, оценено, что для описания пространственной структуры лишь одного белка среднего размера (около 600 аминокислот) требуется около 200 страниц текста. А число белков уже сейчас оценивается не менее, чем в 500 000 (по некоторым расчетам оно достигает 1 млн.). Ясно поэтому, что сведения о расшифрованных белках будут храниться в компьютерных библиотеках сверхгигантского размера.
Обычно, чтобы экспериментально установить
Другой пример — создание каталога всех имеющихся в геноме человека ферментов, называемых протеинкиназами («кином»). В результате этого поиска было выявлено 518 генов, кодирующих протеинкиназы, и, кроме того, 106 псевдогенов. При этом 70 из обнаруженных генов ранее были совсем неизвестны. Выяснилось также, что почти половина генов «кинома» располагается в участках генома, связанных с различными заболеваниями человека.
Дешифровка последовательности белка с помощью компьютера напоминает работу криптографов — из последовательности отдельных букв читается весь биологический текст, и на основании этого выясняется, что это за белок, какова его функция в организме. Впечатляющие результаты были получены, например, австрийцем Айзенбергом. Используя дешифровальные методы анализа нескольких тысяч белков, не проведя при этом ни одного эксперимента, он сразу предсказал функции почти половины из них. Вспомним, что еще не так давно ученые иногда тратили всю жизнь, чтобы определить структуру одного белка и познать его функцию. С помощью новых подходов можно одновременно предсказать функцию большого числа белков.
Для написания книги «Функционирующий геном» потребуется объединить вместе огромную информацию о картине работы десятков тысяч генов в различных типах клеток на разных стадиях развития и в разных физиологических состояниях, данные о структуре и функции отдельных белков, кинетические параметры, концентрации молекул, сведения о взаимодействии генов и генных продуктов, реакции генома на экстремальные стимулы и различного рода патологические процессы. Связь между генотипом и фенотипом, то есть между генами и их проявлением в совокупности признаков и свойств организма, зачастую обусловлена сложным взаимодействием множества различных генов, а также факторов окружающей среды. По этой причине во многих случаях ее экспериментально пока не удается однозначно установить. Слишком сложна задача и слишком много исходных данных. Такую ситуацию часто называют проблемой нелинейного картирования. Чтобы решить эту проблему, био- и гено-информатике понадобятся новые значительно более совершенные программы, еще более мощные компьютеры. В частности, для этой цели в настоящее время предложено использовать так называемое генетическое программирование. Гены в генетическом программировании рассматривают как аналоги компьютерных программ. Из огромного объема имеющейся информации, связанной с тем или иным фенотипом, строят многочисленные метаболические «деревья», соответствующие разным известным молекулярным взаимодействиям внутри клетки. Затем для поиска наилучшей модели, описывающей определенный фенотип, с «деревьями» осуществляют на компьютере различные операции, подобные мутациям и рекомбинациям в геноме. Следующий этап — отбор тех из них, которые в наибольшей мере соответствуют реальным данным. В конечном итоге все это позволяет осуществлять прогностическое нелинейное картирование, то есть указать на взаимосвязь между работой определенного набора генов и конкретного фенотипа. А далее уже наступает очередь экспериментаторов, которые должны подтвердить или опровергнуть данные, полученные с помощью генетического программирования. Таким образом, генетическое программирование служит для исследователей некой путеводной звездой. Несмотря на сложность задачи, ожидается, что она будет решена не более чем через несколько десятков лет.
Однако нельзя переоценивать возможности современной биоинформатики, она еще далеко не все может решить. Тем не менее, она выступает в качестве мощного инструмента для первоначальной переработки огромной по объему информации, содержащейся в ДНК. Биоинформатика дает для исследователей ценные данные и делает их поиск целенаправленным. Такой поиск может быть продолжен в дальнейшем с использованием других подходов, в частности, экспериментов на культурах клеток или даже на целых животных. Например, как уже говорилось выше, функции тех или других генов человека можно эффективно изучать на модели трансгенных животных.
Кроме перечисленных выше, биоинформатика решает и множество других не менее важных и сложных задач. Таковым являются разработка методов анализа экспериментальной информации; компьютерное моделирование структурно-функциональной организации (вторичной, третичной структуры) генетических макромолекул (ДНК, РНК и белков), молекулярно-генетических процессов (репликации, транскрипции, сплайсинга, трансляции) и молекулярных взаимодействий между генетическими макромолекулами в генных сетях; исследование закономерностей молекулярной эволюции генетических макромолекул, а также молекулярно-генетических систем. Так, используемый в науке геногеографии картографический подход (о нем мы еще поговорим ниже), позволяющий исследовать пространственное распространение по нашей плавнете различных генетических признаков человека, долгие годы был чрезвычайно трудоемким и отнимал у ученых очень много времени. Использование компьютерных технологий принципиально изменило ситуацию, позволило существенно облегчить эти рутинные процедуры, давая исследователю возможность сосредоточиться непосредственно на вопросах творческого анализа географической изменчивости популяционно-генетических характеристик.
Сравнительный анализ геномов с помощью компьютеров стал одним из наиболее распространенных и эффективных методов изучения их структурно-функциональной организации и эволюции. Об этом уже шла речь выше, когда рассказывалось о функциональной геномике, коснемся мы его и в следующих разделах. Наиболее важные участки генома относительно мало изменяются в процессе эволюции, и их функции, установленные в экспериментах на мышах или мухах, зачастую оказываются такими же и у человека. Экспериментальный поиск генов, которые сходны у человека и животных, занимает недели и месяцы работы целой лаборатории. С помощью созданных геноинформатикой эффективных алгоритмов поиска компьютеры позволяют сделать это за считанные минуты. При наличии сходства последовательностей ДНК геноинформатика, с определенной степенью точности, может предсказать эволюцию геномов, функцию отдельных генов и др.
Биоинформатика способна также предсказать пространственную структуру белка на основании данных по последовательности нуклеотидов в ДНК. Это чрезвычайно важное обстоятельство, так как число известных первичных белковых структур (последовательностей аминокислот), установленных по известным нуклеотидным последовательностям ДНК, намного превосходит число экспериментально подтвержденных пространственных белковых структур. И в этом направлении также разработано большое число подходов. Один из наиболее эффективных — использование информации о пространственной структуре белков, имеющих сходную первичную структуру.
И, наконец, принципиально изменилось взаимодействие между учеными разных стран. С помощью компьютера исследователи из многочисленных научных лабораторий мира осуществляют обмен идеями, результаты их работ быстро появляются в Интернете, там же ученые ищут интересующие их сведения, публикуемые коллегами. Всемирная паутина позволяет специалистам не только обмениваться сообщениями, но и за считанные минуты просматривать специализированные базы данных международных центров, в то время как в обычной библиотеке без специальных программ на это ушли бы дни и месяцы. Уж не говоря о том, что на такие полные библиотеки пришлось бы в каждом научном учреждении тратить гигантские средства. В России, под руководством профессора А. А. Александрова, создана большая и весьма полезная база знаний, в которой любой желающий, имеющий доступ к Интернету, может найти сведения обо всех аспектах, связанных с биологией человека (сайт.
В значительной мере потенциал био- и геноинформатики определяется техническими возможностями. Недавно появилось сообщение, что корпорация IBM продала свой самый мощный в мире коммерческий компьютер компании NuTec Sciences, которая будет использовать его в исследованиях генома человека. Производительность этого компьютера составляет 7,5 трлн. операций в секунду. Он построен на базе 5000 процессоров. И это один из важных путей совершенствования геноинформатики.
Если заглянуть в материал, хранящийся в наиболее полном архиве PubMed, то на конец 2002 года там можно найти свыше 10,5 тыс. научных публикаций, в которых упоминаются слова «геном человека». Сейчас очень трудно уследить за всей информацией, которая появляется ежедневно по данной проблеме. В этой связи одним из перспективных путей развития биологии и генетики в XXI веке сейчас считается создание полной компьютерной модели клетки. Только сверхмощные компьютеры способны обеспечить хранение, систематизацию и переработку той огромной фактической информации, которая накопилась учеными за последнее столетие. Такие клеточные модели теоретически способны не только анализировать существующие базы данных, но и предсказывать ученым пути поиска недостающих звеньев. И здесь для биоинформатики еще предстоит работа на многие десятилетия.