Теперь я расскажу, как это все применяется.
Исследование консервативности альтернативного сплайсинга, или Почему мышь не стала человеком?
Структура генов прокариот очень проста: есть начало, есть конец, получается мРНК, которая имеет начало и конец, идет транскрипция, трансляция и белок.
У эукариот структура гена сложнее. Из длинной мРНК удаляются (вырезаются) интроны (insertion sequences, вставочные последовательности), а оставшиеся экзоны сшиваются в единую нить. Из пре-мРНК получается зрелая мРНК, процесс называется сплайсингом. Потом происходит трансляция зрелой мРНК, в результате образуется белок. Мы будем интересоваться экзонами и интронами.
Если бы мы умели правильно предсказывать интроны и экзоны, мы бы могли разметить ген на белок-кодирующие и белок-некодирующие участки.
Альтернативный сплайсинг
Оказывается, ситуация еще сложнее. РНК, прочитанная с одного и того же гена, может сплайсироваться по-разному, что приводит к образованию мРНК с разными наборами экзонов: какой-то экзон в один вариант мРНК попадает, а в другой — нет, и в итоге получатся две разных мРНК и, соответственно, два разных белка. Это называется альтернативным сплайсингом. Таким образом, на уровне созревания мРНК могут образовываться разные РНК-продукты, которые приводят к образованию разных белков.
Сплайсинг происходит в ядре, трансляция — в цитоплазме. Для изучения того, что же оказалось в цитоплазме (то есть того, что подвергается трансляции), секвенируют короткие, 500–600 до 1000 нуклеотидов куски цитоплазматической РНК. Такие сиквенсы называются EST (expresstion sequence tag — "ярлыки экспрессируемых последовательностей"). EST — это короткие, прочитанные однократно (то есть весьма неточно), фрагменты цитоплазматической (сплайсированной, содержащей только экзоны) РНК. Если у нас есть геном, то мы можем эти EST картировать на геном и, тем самым, найти, где находятся интроны и экзоны.
Если при картирование EST полностью, без перерывов, соответствует геномной последовательности — это ген без интронов. Если EST ложится на геном с перерывами, то мы наблюдаем результат сплайсинга. Если же разные EST демонстрируют несколько вариантов расположения в одном и том же участке генома (то есть выявляют разные сочетания экзонов), то мы наблюдаем альтернативный сплайсинг. Экзон, который может включаться в белок, а может и не включаться, называется кассетным экзоном. мРНК с разными наборами экзонов данного гена (то есть в которые некий кассетный экзон или включается или не включается), называются изоформами.
Частота альтернативного сплайсинга
Сначала альтернативный сплайсинг был обнаружен у вирусов, считалось, что это экзотика. До 1998 г. считалось, что только около 6 % генов человека имеют альтернативный сплайсинг. Рассчитали, что для того, чтобы обеспечить наблюдаемое разнообразие белков, в геноме человека должно было быть 80 — 100 тысяч генов. В 1998 году было показано, что около половины генов человека имеют альтернативный сплайсинг. За счет альтернативного сплайсинга число генов может быть меньше числа кодируемых ими белков, так как с одного гена может образовываться несколько белков.
Как было написано в какой-то газете "Многолетними усилиями ученых количество генов человека было сокращено со 100 тысяч до 25". Действительно, по последним оценкам в геноме человека около 25–30 тысяч генов. Оценка количества белков не изменилась — разных белков около 80-100 тысяч. Разнообразие белков обеспечивается альтернативным сплайсингом. Например, в одних клетках белок должен быть в цитоплазме, в других — такой же белок в мембране, в третьих — транспортироваться наружу. И это легко делается не за счет наличия разных генов для каждого случая, а за счет альтернативного сплайсинга, который цепляет на N-конец разные сигналы, при том что "рабочая часть" белка остается одной и той же, и одна изоформа белка размещается в мембране, другая изоформа белка — в цитоплазме, и т. д.
Сейчас общеизвестно, что не менее 50 % генов человека альтернативно сплайсируется.
Альтернативный сплайсинг бывает разных типов (галочками показано, как вырезаются экзоны):