Выбрать главу

1962 ∙ — ∙ Молекулярные часы

1965 ∙ Секвенирование tRNA ∙ База данных PIR

1970 ∙ Обратная транскрипция ∙ Алгоритм выравнивания NW

1972 ∙ Клонирование ∙ —

1980 ∙ Секвенирование ∙ База данных PDB. Спец ∙ выпуск NAR, Базы данных нукл. Послед

1981 ∙ — ∙ Алгоритм выравнивания SW

1982 ∙ Секвенирование ДНК фага лямбда ∙ -

1983 ∙ PCR ∙ Алгоритм поиска по базе данных WL

1985 ∙ Секвенирование ДНК вирусов ∙ FASTA — поиск по базе данных

1987 ∙ — GeneBank. Профили

1989 ∙ Программа "Геном человека" ∙ Swiss-Prot. NCBI

1991 ∙ EST ∙ -

1992 ∙ Первая хромосома дрожжей ∙ BLOSSUM

1993 ∙ Автоматическое секвенирование ∙ -

1995 ∙ Первый геном бактерии ∙ База данных SCOP

1996 ∙ Первый геном архейный ∙ -

1997 ∙ — ∙ PSI-BLAST. Кластеры ортологичных генов

1998 ∙ Геном червя ∙ -

2001 ∙ Геном человека ∙ -

В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована тРНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование. В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике — алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т. д.

Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают. Первый тип — архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся

• GeneBank & EMBL — здесь хранятся первичные последовательности

• PDB — пространственные структуры белков, и многое другое.

В качестве курьеза могу привести пример: в архивной базе данных указано,

что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.

Второй тип — курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации — что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.

К базам данных такого типа относятся:

• Swiss-Prot — наиболее качественная база данных, содержащая аминокислотные последовательности белков

• KEGG — информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2)

• FlyBase — информация о Drosophila

• COG — информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов. Тем не менее, даже в курируемых базах данных могут встречаться курьезные надписи, например такая забавная надпись:

CAUTION: AN ORF CALLED DSDC WAS ORIGINALLY (REF. 3) ASSIGNED TO THE WRONG DNA STRAND AND THOUGHT TO BE A D-SERINE DEAMINASE ACTIVATOR, IT WAS THEN RESEQUENCED BY REF. 2 AND STILL THOUGHT TO BE "DSDC", BUT THIS TIME TO FUNCTION AS A D-SERINE PERMEASE. IT IS REF.1 THAT SHOWED THAT DSDC IS ANOTHER GENE AND THAT THIS SEQUENCE SHOULD BE CALLED DSDX. IT SHOULD ALSO BE NOTED THAT THE C-TERMINAL PART OF DSDX (FROM 338 ONWARD) WAS ALSO SEQUENCED (REF.6 AND REF. 7) AND WAS THOUGHT TO BE A SEPARATE ORF (YES, DON'T WORRY, WE ALSO HAD PROBLEMS UNDERSTANDING WHAT HAPPENED!).

По крайне мере здесь кураторы базы данных честно признаются, что не знают, как это случилось.

Третий тип — производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

• SCOP — База данных структурной классификации белков (описывается структура белков)

• PFAM — База данных по семействам белков

• GO (Gene Ontology) — Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разно му, и чтобы разным генам не давали одинаковые названия)

• ProDom — белковые домены

• AsMamDB — альтернативный сплайсинг у млекопитающих

И интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию — в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д.