第一作者简介:王小娟,女,重庆人,硕士在读,专业方向为法医物证学。E-mail: 757164796@qq.com
作为人类基因组中伴性遗传标记,Y染色体/线粒体携带的遗传信息能够遗传给其男性/所有后代。Y染色体SNP(Y-SNP)和线粒体SNP(Mt-SNP)单倍群能够分别反映其父/母系历史信息,在人类族群起源进化研究中备受关注。本文就Y-SNP及Mt-SNP的遗传特性、单倍群族群地域分布及在分子人类学领域的研究进展进行综述,并展望该技术在法医遗传学的应用前景。
As the sex-concomitant inheritable genetic substance in human genome, Y-chromosome/mitochondria can make its carrying genetic information passed down to male descendants/all offspring. There are single nucleotide polymorphisms (SNPs) in the non-recombining region of Y chromosome (NRY) and/or mitochondria. They are widely used for human population evolution scrutiny because these SNP haplotypes can reflect the historical patrilineal/matrilineal information. In this paper, the research progresses on Y-SNP and Mt-SNP are reviewed from three aspects: their genetic characteristics, worldwide region-associated distributions and application into molecular anthropology. Besides, both the genetic markers are also discussed of their forensic exertion.
单核苷酸多态性(single nucleotide polymorphisms, SNP)是指DNA序列中单个碱基发生变化而引起的一种DNA序列多态性, 广泛存在于人类基因组编码区和非编码区[1]。在一条染色体或线粒体上, 多个连锁的等位基因的线性组合称为单倍型(Haplotype), 不同的组合方式代表不同的单倍型[2]。具有共同祖先来源的一组单倍型称为一个单倍群(Haplogroup)。Y染色体上的SNP(简称Y-SNP)和线粒体上的SNP(简称Mt-SNP)能分别形成组合, 这种连锁遗传特征使得其在世代传递中形成单倍型组, 其分布特点具有地理及族群特异性, 故而被广泛应用于群体遗传学、分子人类学和考古学研究中。本文主要调研了Y染色体和线粒体单倍群在分子人类学领域的研究进展, 以及其在法医遗传学中的应用。
人类Y染色体DNA分为两个区域:拟常染色体区域(5%)和非重组区域(95%), 其中只有拟常染色体区域在传代过程中与X染色体发生重组, 其余的区域则以单倍型形式呈父系遗传, 不发生重组[3]。SNP的突变率较STR低[4], 具有较高的稳定性。Y染色体的有效群体小, 理论上仅为常染色体的四分之一, 对遗传漂变敏感[5, 6]。这些特点使Y-SNP成为研究人类起源进化的重要工具。随着Y-SNP的不断研究和发现, Y染色体谱系的精确度也不断提高。截至2019年2月17日, YFULL数据库(https://www.yfull.com/)已收录Y-SNP位点数达158 585个, 并提供在线查询功能。此类数据库还有ISOGG数据库(https://isogg.org/)、YHRD数据库(https://yhrd.org/)等。根据Y-SNP的历史发生时间, Y染色体可以分为20个主干单倍群, 其在世界人群中的分布体现出非常明显的地理特异性(见补充材料图S1)[7, 8, 9, 10, 11, 12], 其中单倍群O、C、D、N是东亚主要单倍群, 约占东亚男性的93%[8]。我国是多民族混居国家, 包含汉藏语系、侗台语系、苗瑶语系、南亚语系、阿尔泰语系、印欧语系、南岛语系等七个语系人群。不同语系人群之间的单倍群分布频率存在差异性。单倍群O3-M122(现已更名为O2-M122)支系在汉藏语系人群中分布广泛, 其下游支系O3a2b-M7(现已更名为O2a2a1a2-M7)在苗瑶(苗瑶语系)和孟高棉(南亚语系)人群中高频出现[13]; 侗台语系和南岛语系人群主要单倍群为O1a-M119、O2a-M95(现已更名为O1b1a1a-M95)[14], D-M174单倍群及其下游支系在藏缅语族、侗台语系和苗瑶语系人群中也广泛分布; 南亚语系以O2a-M95(现已更名为O1b1a1a-M95)单倍群为主; 阿尔泰语系以C-M130单倍群为主; 印欧语系以R-M207单倍群为主[8, 15, 16]。
Y-SNP遗传标记在现代人类起源和进化研究中发挥了重要作用, 尤其是对于现代人类的“ 非洲起源学说” 。Underhill等利用高效液相色谱技术(DHPLC)对来自世界的1 062名男性样本进行Y-SNP分析并绘制了谱系树, 该谱系树的根部在非洲, 人类从非洲走出后向欧洲和亚洲迁徙而各自成分支, 美洲和澳洲人群起源于亚洲人群[17]。2000年柯越海等人对12 217份东亚现代人样本进行3个Y-SNP(YAP、M89以及M130)位点的检测分析, 结果显示全部样本在三个位点中有且仅有一个发生突变, 并携带来自非洲的M168位点突变, 从父系遗传角度看, 东亚现代人群都是走出非洲的后裔, 这进一步支持了非洲起源学说[18]。Y-SNP证据支持东亚人群主体起源于非洲并由南方进入东亚向北迁移即“ 南线” (Southern route)假说; 同时也存在中亚和西部欧亚的遗传输入(约7%)即“ 北线” (Northern route)推断[19, 20]。石宏等通过对东亚2 000多份O3-M122(现已更名为O2-M122)单倍群样本进行系统的研究, 发现南方人群中该单倍群的多样性高于北方, 从而进一步证实东亚现代人起源的“ 南线” 假说[21]。蔡晓云等对孟高棉和苗瑶族群中的O3a2b-M7(现已更名为O2a2a1a2-M7)和O3a2c1a-M117(现已更名为O2a2b1a1-M117)单倍群进行分析, 揭示孟高棉和苗瑶人群间存在基因流动, 故现代人是由东南亚进入东亚并在地图上呈现由南向北扩散的局面[13]。
Y染色体是父系遗传的基因组片段, 拥有共同祖先的男性具有相同的Y染色体单倍群。通过Y染色体单倍群类型能够追溯家族的父系起源, 从而可验证祖先与后代的关联性[22]。例如, Foster等人针对备受关注的美国总统Thomas Jefferson与其女仆Sally Hemings私生子问题, 对Thomas Jefferson的叔叔及Sally Hemings的大儿子和最小儿子的男性后代进行Y染色体遗传标记分析, 证实Thomas Jefferson是Sally Hemings最小儿子的生父[23]。此外, 国内也有基于Y染色体的家系研究。复旦大学现代人类学实验室对曹操的遗传类型展开了系统的调查。从曹操后人家系及曹操叔祖父曹鼎遗骸两方面入手, 推断曹操Y染色体单倍群为O2* -M268(现已更名为O1b* -M268)的可能性为92.71%[24]; 根据Y染色体12个Y-STR基因座对曹鼎遗骸进行检测, 基于贝叶斯等位基因频率法的数据库推测曹鼎属于单倍群O2* (M268 +, PK4, M176)(现已更名为O1b* )的概率最高(60.18%)[25]; 根据O2-M268(现已更名为O1b-M268)的分支结构选择4个SNP(M268、F1462、M176、PK4)位点利用SNaPshot技术对曹鼎遗骸作进一步分型检测, 验证了其单倍群推测结果, 更加支持曹操Y-SNP单倍群的结论[26]。
Y染色体单倍群的分布具有明显的地域特异性, 通过检测相关的Y-SNP, 可推测生物学检材的族群地域来源[27]。例如, 王迟早等通过检测8例淮海战役士兵遗骸Y-STR单倍型分型而预测其所属Y-SNP单倍群, 再进一步检测Y-SNP单倍群, 又基于YHRD数据库中的Y-STR共享单倍型, 推测出了样本的地域来源[28]。实际案件中, 目前主要是基于常染色体SNP推断生物检材的生物来源[29, 30], 尚未见利用Y-SNP单倍群进行族源推断的案例报道。Y染色体单倍型还可应用于家系认定案件中[31, 32]。由Y染色体上的突变形成的个体差异主要有Y-SNP及Y-STR。Y-STR分型在推断混合斑中男性供体方面有重要价值, 通过Y-STR技术可在女性成分远多于男性成分的混合DNA样本中检测出男性DNA分型[9], 可在性侵害等案件中发挥重要作用。男性混合样本的分型检测中, Y-STR为重复序列, 在扩增过程中由于复制滑脱产生影子峰(Stutter peak), 对于极端比例混合样本的分型会产生影响。Y-STR突变率较高, 在传代过程中积累突变, 父系亲缘关系越远的个体Y-STR分型差异越大[22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33]。而Y-SNP较Y-STR突变率低, 检测时无影子峰干扰, 扩增片段短, 同一家系人群拥有相同的Y-SNP单倍群; 故当Y-STR分型不匹配时, Y-SNP可为有力补充, 能降低错误排除同一家系的风险。目前已有相关网站(https://www.yfull.com)能够通过对Y染色体进行全测序而评估样本间的分化时间。
线粒体DNA(简称Mt-DNA)是人类基因组中存在于细胞质中的遗传物质, 呈母系遗传, 无重组[34]。Mt-DNA序列进化速率比核基因高[35], 伴随人类进化历史, 大量的SNP在Mt-DNA中逐渐产生和积累。这些特点, 使Mt-SNP成为研究人类起源进化和人群迁移的理想遗传标记。近十多年来, 随着测序技术的发展和利用, Mt-DNA全序列数据飞速增长, PlyloTree数据库中已公布了24 275条Mt-DNA全序列数据(http://www.phylotree.org/, 截止2016年2月17日最近一次更新), 在此基础上建立高解析度的Mt-SNP单倍群谱系树能够解析世界人群的Mt-DNA关系, Mt-SNP单倍群的支系分布同样具有明显的地域特异性(见补充材料图S2)[36, 37]。Mt-SNP单倍群在中国的分布具有南北差异性, B、M7、F、R这四类单倍群是南方的特征单倍群, 分布频率由南向北呈递减趋势。如在侗台语系人群中, 66.4%的个体可以归类到上述四类单倍群, 其下游分支B4a、F1a、M7b1、B5a、M7b* 、M* 、R9a和R9b单倍群的分布较为普遍; 苗瑶语系人群中约80%属于单倍群D、M7、M8、B、R9(包括F、R9b、R9c), 而B、M7、F、R单倍群总频率接近50%; 阿尔泰语系人群中B、M7、F、R分布频率明显低于南方各语系人群(16.3%); 55%南方汉族人群属于单倍群B、F、R9a、R9b、N9a, 较北方汉族高20% [38, 39, 40]。Mt-SNP单倍群语系间的分布具有差异性, 但差异不明显, 没有语系特异性。
线粒体遗传标记能追溯现代人的起源与迁徙。在非洲人群中观察到Mt-DNA的遗传多态性较其他人群高, 各大洲人群的Mt-SNP单倍群分析显示出最根部的支系位于非洲, 支持现代人的“ 非洲起源学说” [41]。随着Mt-DNA的研究方法逐渐成熟, 更精确的世界人群谱系树的构建, 以及对线粒体全序列的分析, 人类非洲起源的结论得到了进一步的确认[42, 43, 44]。基于非洲起源假说, 推测现代人类祖先约在6~7万年前从非洲迁往亚洲, 3~5万年前进入欧洲, 1~3万年前又从亚洲北部或欧洲迁到美洲[41]。与Y-SNP一致, Mt-SNP证据也支持现代人从非洲走出后沿南部海岸线进入东亚即“ 南线” 假说。M单倍群主要分布于东亚、南亚、大洋洲及东非群体中, 在欧亚西部相对缺乏, 其分布与“ 南线” 说吻合[45]; 对东亚人群的取样调查显示, 北方的Mt-SNP单倍群主要是N单倍群下游分支的A、N9及M单倍群下游分支的D、G、M8、M9, 南方主要的单倍群是B、M7、F、R9等, 且南方高频单倍群多样性高于北方, 支持东亚现代人的“ 南线” 假说[5]。
Mt-DNA由于其环状结构、母系遗传、高拷贝数等特点, 在微量、降解检材以及母系亲缘关系认定方面有重要价值[46]。在没有嫌疑人其他线索的情况下, Mt-DNA可用于推断未知DNA样本的母系族源信息, 能为判断生物样本的身份来源提供线索。Oven等基于单碱基引物延伸技术选择非洲、欧洲、亚洲和美洲主要单倍群的36个Mt-SNP建立了3个复合检测体系, 推测了生物母系的地理来源[47]。随后该团队又构建了包含大洋洲主要Mt-DNA单倍群26个SNP的3个复合检测体系, 经与前期的复合体系相结合, 又推测了未知样本的生物母系的地理来源[48]。Ivanov等人从在俄国Ekaterinburg发现的疑为沙皇Nicholas二世及其家人的骸骨中提取了Mt-DNA并测序, 经同时对Romanov家族的母系后代血液样本及Nicholas二世兄弟的骸骨进行Mt-DNA测序, 最终证实骸骨属于沙皇Nicholas二世及其家庭成员[49]。
目前法医遗传学领域主要是根据常染色体SNP复合检测体系推断样本的族群来源, 分辨力可达3~8个洲际人群[50, 51, 52]。但常染色体DNA由于发生重组, 因人群间的基因交流融合而造成遗传成分混合, 会使得利用常染色体遗传标记的族群区分分辨力受限。Y-SNP及Mt-SNP伴性遗传及低重组率的特点, 使其单倍群分布具有明显的地理、族群特异性。通过检测相关生物样本的Y-SNP及Mt-SNP突变情况, 可分别获得父/母系族源的信息。多类别基因组信息的结合与集成, 可相互补充验证, 能进一步提高生物样本特别是混合人群样本的族群地域来源推断的准确性。同时, 现今测序技术的进步和大数据的出现又使亚单倍群的谱系关系及其分布能够更多更充分地展现, 从而根据不同单倍群特异性的地理区域分布, 可进一步细化生物样本的族源推断范围。此外, 共同男性祖先的男性后代拥有相同的Y-SNP单倍群, 亦可为家系排查提供参考信息, 防止错误排除。
本文补充材料文件详见:http://www.xsjs-cifs.com/CN/volumn/home.shtml。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|