Геном человека. Энциклопедия, написанная четырьмя буквами - Тарантул Вячеслав Залманович (книги без регистрации полные версии txt) 📗
Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван ab initio) хорошо получается в случае относительно небольших геномов. Однако применительно к геному человека этот подход не всегда срабатывает в полной мере, т. к. гены человека часто устроены из маленьких экзонов и огромных интронов. Не отработаны также точные критерии для поиска не кодирующих белок генов. В этом заключается причина, почему до сих пор мы не можем назвать точное число генов в геноме человека, хотя он весь секвенирован.
Третья, не менее важная задача геноинформатики, касающаяся генома человека, — создание книги под названием «Функционирующий геном». Информация о геноме человека, накопленная сейчас в базах данных, касается в основном одного аспекта организации геномной ДНК, а именно ее первичной структуры, то есть последовательности нуклеотидов. Но для описания функциональных особенностей геномов, например особенностей регуляции экспрессии содержащихся в них генов, структуры и функции кодируемых ими белков и др. потребуются неимоверно большие объемы информации. Например, оценено, что для описания пространственной структуры лишь одного белка среднего размера (около 600 аминокислот) требуется около 200 страниц текста. А число белков уже сейчас оценивается не менее, чем в 500 000 (по некоторым расчетам оно достигает 1 млн.). Ясно поэтому, что сведения о расшифрованных белках будут храниться в компьютерных библиотеках сверхгигантского размера.
Обычно, чтобы экспериментально установить функцию того или иного вновь обнаруженного гена или белка, требуются значительные усилия экспериментаторов и весьма большие финансовые затраты. Использование компьютеров позволяет решать многие вопросы без проведения специальных дорогостоящих и занимающих много времени экспериментов. Ярким примером может служить обнаружение гена, мутация в котором обуславливает преждевременное старение, происходящее при синдроме Вернера (напомним, что пациенты с этим заболеванием уже в молодые годы выглядят как дряхлые старики). С помощью Интернета и других современных средства информатизации всего за восемь месяцев удалось «вычислить» соответствующий ген. Для его обнаружения исследователям пришлось перебрать в базах данных свыше миллиона пар нуклеотидов. Очевидно, что без помощи геноинформатики этого события пришлось бы ждать еще несколько лет.
Другой пример — создание каталога всех имеющихся в геноме человека ферментов, называемых протеинкиназами («кином»). В результате этого поиска было выявлено 518 генов, кодирующих протеинкиназы, и, кроме того, 106 псевдогенов. При этом 70 из обнаруженных генов ранее были совсем неизвестны. Выяснилось также, что почти половина генов «кинома» располагается в участках генома, связанных с различными заболеваниями человека.
Дешифровка последовательности белка с помощью компьютера напоминает работу криптографов — из последовательности отдельных букв читается весь биологический текст, и на основании этого выясняется, что это за белок, какова его функция в организме. Впечатляющие результаты были получены, например, австрийцем Айзенбергом. Используя дешифровальные методы анализа нескольких тысяч белков, не проведя при этом ни одного эксперимента, он сразу предсказал функции почти половины из них. Вспомним, что еще не так давно ученые иногда тратили всю жизнь, чтобы определить структуру одного белка и познать его функцию. С помощью новых подходов можно одновременно предсказать функцию большого числа белков.
Для написания книги «Функционирующий геном» потребуется объединить вместе огромную информацию о картине работы десятков тысяч генов в различных типах клеток на разных стадиях развития и в разных физиологических состояниях, данные о структуре и функции отдельных белков, кинетические параметры, концентрации молекул, сведения о взаимодействии генов и генных продуктов, реакции генома на экстремальные стимулы и различного рода патологические процессы. Связь между генотипом и фенотипом, то есть между генами и их проявлением в совокупности признаков и свойств организма, зачастую обусловлена сложным взаимодействием множества различных генов, а также факторов окружающей среды. По этой причине во многих случаях ее экспериментально пока не удается однозначно установить. Слишком сложна задача и слишком много исходных данных. Такую ситуацию часто называют проблемой нелинейного картирования. Чтобы решить эту проблему, био-и гено-информатике понадобятся новые значительно более совершенные программы, еще более мощные компьютеры. В частности, для этой цели в настоящее время предложено использовать так называемое генетическое программирование. Гены в генетическом программировании рассматривают как аналоги компьютерных программ. Из огромного объема имеющейся информации, связанной с тем или иным фенотипом, строят многочисленные метаболические «деревья», соответствующие разным известным молекулярным взаимодействиям внутри клетки. Затем для поиска наилучшей модели, описывающей определенный фенотип, с «деревьями» осуществляют на компьютере различные операции, подобные мутациям и рекомбинациям в геноме. Следующий этап — отбор тех из них, которые в наибольшей мере соответствуют реальным данным. В конечном итоге все это позволяет осуществлять прогностическое нелинейное картирование, то есть указать на взаимосвязь между работой определенного набора генов и конкретного фенотипа. А далее уже наступает очередь экспериментаторов, которые должны подтвердить или опровергнуть данные, полученные с помощью генетического программирования. Таким образом, генетическое программирование служит для исследователей некой путеводной звездой. Несмотря на сложность задачи, ожидается, что она будет решена не более чем через несколько десятков лет.