Выбрать главу

АТЛАС ГЕНОФОНДА ЕВРАЗИИ

(рассмотрен в главах 5, 6, 9)

Классические маркёры представлены четырьмя картами для генов групп крови АВ0 и резус (глава 5, раздел 5.2). Аутосомные ДНК маркёры представлены картой гена CCR5 (глава 6, раздел 6.1). В обоих случаях использована информация банка данных GENEPOOL. Но главным образом Атлас включает карты по митохондриальной ДНК (глава 9, раздел 9.2).

БАНК ДАННЫХ ПО МИТОХОНДРИАЛЬНОЙ ДНК. Источником исходных данных по мтДНК послужил банк данных World Mitochondrial. (Его последние версии обозначаются также MURKA database). Банк данных объединяет подавляющее большинство опубликованных данных по изменчивости митохондриальной ДНК в популяциях всех регионов мира. Объём банка данных на 2007 год превышает 67 000 изученных образцов мтДНК. Создание банка велось под общим руководством первого автора этой книги: начальные версии составлялись другим автором, затем сбор данных осуществлял А. С. Пшеничное, а нынешняя версия банка данных в значительной мере пополнена В. В. Запорожченко, которым написана также программа автоматического отнесения образцов к гаплогруппам.

Для каждого образца содержится информация по ГВС1, а также (при наличии таких данных в оригинальных статьях) по ГВС2 и по информативным мутациям в кодирующем регионе мтДНК («ПДРФ маркёры»). В банк включены также сведения по изученным популяциям, включая их этническую (народ) и административную принадлежность (страна, провинция) и географические координаты.

ОПРЕДЕЛЕНИЕ ЧАСТОТ ГАПЛОГРУПП. Особенность всех митохондриальных баз данных в том, что информация содержится в формате «образец (из определённой популяции) — его гаплотип», а не в формате «популяция — частота аллеля (гаплогруппы)», обычном для популяционно-генетических баз данных. Соответственно, на первом этапе использования митохондриальной базы данных необходимо для каждого образца указать его гаплогруппу, и только потом можно рассчитать и картографировать частоты гаплогрупп. Однако определение гаплогруппы для огромного массива образцов, изученных разными авторами по различным наборам маркёров с использованием различающихся обозначений одних и тех же гаплогрупп, представляет собой сложную задачу.

Для создания Атласа митохондриальной ДНК Евразии (версия 2007 года) мы использовали следующий алгоритм. Для образцов, по которым имелись удовлетворительные данные о ПДРФ маркёрах кодирующей части мтДНК, гаплогруппы определялись по наличию характеристических мутаций в кодирующей части, то есть наиболее корректным путём. Для образцов, по которым имелись данные только по ГВС1 (или данные по обоим сегментам, и ГВС1, и ГВС2), гаплогруппа определялась по степени сходства данного гаплотипа со всеми гаплотипами, для которых надёжно известна гаплогруппа. В качестве такой референтной базы (обучающей выборки) использовались образцы, секвенированные полностью или подробно охарактеризованные по ПДРФ маркёрам. Например, если гаплотип данного образца по набору мутаций оказывался наиболее сходен с восемнадцатью другими гаплотипами, несомненно относящимся к гаплогруппе U4, то и рассматриваемый гаплотип мы относили к той же гаплогруппе. Такая операция проводилась программным путём (используя возможности MURKA database), при необходимости результаты проверялись и корректировались вручную (экспертная оценка). Такой способ достаточно эффективен и в большинстве случаев точен (как показано для похожего алгоритма [Behar et al., 2007]), но не гарантирует стопроцентное определение гаплогруппы. Действительно, если тестируемый образец сходен с двадцатью гаплотипами, относящимися к одной гаплогруппе, и с сорока гаплотипами другой гаплогруппы, то классифицировать наш гаплотип затруднительно. Во всех подобных случаях гаплогруппа не проставлялась (считалась неизвестной), и популяции, в которых доля таких неизвестных гаплогрупп превышала 1 %, не включались в картографический анализ. Впрочем, для ряда гаплогрупп (тех, для которых общепринято выделение по ГВС1) такого исключения популяций не проводилось, поэтому карты разных гаплогрупп основаны на несколько различающихся наборах популяций.

Такой алгоритм позволил гарантировать высокую надёжность исходных картографируемых данных (частот гаплогрупп) и при этом использовать все имеющиеся данные: как из работ, включавших обязательное определение ПДРФ маркёров, так и данные из многочисленных исследований, в которых проводилось лишь секвенирование ГВС1 (например, публикации лабораторий судебно-медицинской экспертизы). Использованные для картографирования частоты гаплогрупп представлены на сайте www.genofond.ru (к моменту выхода книги представлены частоты 11 основных гаплогрупп в 136 популяциях Западной Евразии).