基于27重SNP种族推断体系的东乡族群体遗传结构研究
杨鑫1,2,3, 江丽2, 骆继怀1,3, 张子龙1, 李玖玲2, 唐光峰4, 孙红兵1,3,*, 李彩霞2,*
1. 甘肃省证据科学技术研究与应用重点实验室,兰州 730070
2. 公安部物证鉴定中心,北京市现场物证检验工程技术研究中心,现场物证溯源技术国家工程实验室,北京 100038
3. 兰州市公安局刑事科学技术研究所,兰州 730030
4.泰安市公安局,山东 泰安 271000
* 通讯作者:孙红兵,男,甘肃兰州人,学士,教授/主任法医师,研究方向为法医遗传学。E-mail:shb.good@163.com;李彩霞,女,山西临汾人,博士,主任法医师,研究方向为法医遗传学。E-mail:licaixia@tsinghua.org.cn

第一作者简介:杨鑫,男,甘肃兰州人,硕士,主检法医师,研究方向为法医遗传学。E-mail:lz_yangxin@163.com

摘要

目的 对198名甘肃和69名新疆的东乡族个体进行基于27重SNP种族推断体系的多态性研究并分析东乡族的群体遗传结构。方法 使用SNaPshot试剂盒分析东乡族27个SNP的基因型、等位基因频率等遗传学参数,再以Structure2.3.4软件对所涉个体及群体的祖先成分进行溯源,以所得结果作主成分分析并建立系统发生树。结果 除4名甘肃东乡族个体的东亚成分不足50%外,其余263名个体均以东亚成分为主,其次是欧洲成分,非洲成分占比最少。系统发生树显示,东乡族和其他东亚人群确实共列为一支,虽其又独立成支;不同人群遗传关系的主成分分析也支持上述所得结论。结论 将东乡族人群归类于东亚人群,与之前语言学、历史学、生物学方面的证据是相契合的,但少量个体欧洲成分占比较高的原因仍有待进一步分析。总之,使用27重SNP种族推断体系对东乡族人群进行祖先信息推断是可行和可靠的。

关键词: 遗传结构; 种族推断; SNP; 东乡族人群
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2019)02-0117-05
Genetic Structure of China’s Dongxiang-ethnic Population Based on Continental Ancestry-informative 27-plex SNPs
YANG Xin1,2,3, JIANG Li2, LUO Jihuai1,3, ZHANG Zilong1, LI Jiuling2, TANG Guangfeng4, SUN Hongbing1,3,*, LI Caixia2,*
1. Gansu Provincial Key Laboratory of Research and Application of Evidential Science and Technology, Lanzhou 730070, China
2. Beijing Engineering Research Center of Crime Scene Evidence Examination & National Engineering Laboratory for Forensic Science & Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China;
3. Institute of Forensic Science, Lanzhou Public Security Bureau, Lanzhou 730030, China
4.Tai'an Public Security Bureau, Tai'an 27100; Shandong,China
Abstract

Objective To explore the genetic polymorphism and structure of China’s Dongxiang-ethnic population using the continental ancestry-informative 27-plex SNPs to analyze the genetic polymorphisms of the exampled 198 individuals from Gansu province and 69 ones from Xinjiang Uygur Autonomous Region.Methods SNaPshot Multi-analysis Kit was used to differentiate the 27-plex SNPs from the selected individuals, having obtained the genotypic and allelic frequencies together with the other related genetic information. Ancestry information was traced by the software Structure 2.3.4 so that the principal component analysis was thereby conducted along with the phylogenetic tree depiction.Results Apart from only 4 Dongxiang-ethnic individuals from Gansu showing less than 50% of the East-Asian component, the rest 263 ones are mainly holding the East-Asian component as the principal, followed by the European component as the second, and the African’s proportion being the lowest. The phylogenetic tree demonstrated that China’s Dongxiang-ethnic populations are among the same clade with other East-Asian populations though the two region-different Dongxiang-ethnic groups have yet been clustered into each independent branch, which is supported by principal component analysis.Conclusions That China’s Dongxiang-ethnic population can be grouped into its East-Asian’s kin is consistent with the previous studies from linguistics, history and biology although further investigation is still needed for some individuals to manifest their higher European component. In conclusion, it is feasible and reliable to use the 27-plex continental ancestry-informative SNPs system to infer the ancestral information of China’s Dongxiang-ethnic population.

Key words: genetic structure; ancestry inference; SNP; China’s Dongxiang-ethnic population;

东乡族是我国西北地区特有的少数民族, 主要聚居在甘肃省临夏回族自治州的东乡族自治县, 另有少量散居于青海省、宁夏回族自治区和新疆维吾尔自治区。有关东乡族的起源和形成问题, 虽然有部分考古、语言、文化等方面的证据, 但由于缺少系统性和完整性, 因此学界一直没有公认的论断。谢小冬、Lin等[1, 2]学者曾先后使用不同的STR遗传标记探讨过东乡族的民族起源和发展, 但受到使用的遗传标记的信息量限制, 导致其结果虽具有一定的说服力和启发性, 且也能基本符合原来从历史、考古和体质人类学等方面得出的相关结论, 但却仍然无法彻底解答东乡族的起源问题。

2016年, Wei等[3, 4]开发了一套基于常染色体27重SNPs 复合扩增的方法, 并评价了其在分型检测和未知人群遗传结构及祖先推断中应用的有效性。经验证, 该体系可以精确推断非洲、欧洲、东亚血统的个体祖先起源, 且对欧亚混合人群(欧洲/东亚)有较好的推断能力, 可在相关研究和实践中选择使用[5, 6]。鉴于此, 本文拟通过使用该27重常染色体SNPs种族推断体系研究东乡族人群的遗传结构及民族起源和发展, 以期为该领域的研究提供新的证据。

1 材料与方法
1.1 样本及DNA提取和定量

样本来源:基础参考人群样本数据来源于千人基因组计划和国家科技资源共享服务平台计划等项目。其中甘肃与新疆东乡族无关个体血卡样本各为198和69份。

DNA提取和定量:样本采用QIAamp DNA Mini M48 试剂盒提取纯化得到模板DNA, 再用Nano Drop 2000c分光光度计进行定量后, 以去离子灭菌水调整浓度至5~10 ng /μ L, 备检。

1.2 SNPs引物及扩增检测体系

参照文献[5]进行体系设计和分型检测。

1.3 数据分析

使用Structure2.3.4软件计算个体及群体的祖先成分; 将计算得到的群体祖先成分与之前文献报道的数据汇总, 使用SPSS17.0软件进行主成分分析, 再以FigTree v1.4.2软件依据不同人群之间的遗传关系构建系统进化树。

2 结果
2.1 个体祖先成分统计

使用Structure2.3.4软件计算198名甘肃和69名新疆的东乡族个体的祖先成分信息(表1)。其中, 甘肃东乡族中东亚成分超过90%的个体数量为134名, 东亚成分最高的为0.993, 欧洲成分最高的为0.698, 非洲成分最高的为0.148; 新疆东乡族中东亚成分超过90%的个体数量为43名, 东亚成分最高的为0.993, 欧洲成分最高的为0.474, 非洲成分最高的为0.302。所有受检个体中, 除4名甘肃东乡族个体的东亚成分不足50%外, 其余263名个体均以东亚成分为主, 其次是欧洲成分, 非洲成分占比最少。

表1 东乡族个体祖先成分(K=3)信息统计 Table 1 Statistics of ancestral component from China’ s Dongxiang-ethnic individuals (K=3)
2.2 东乡族群体聚类分析结果

对甘肃及新疆的东乡族人群与欧洲成分代表人群、东亚成分代表人群、非洲成分代表人群进行分析( K = 3) , 35个代表人群的27个SNPs在K = 3条件下的分析结果见图1及表2

图1 东亚、欧洲和非洲等35个人群27个SNPs的STRUCTURE分析(K=3)Fig.1 Structure analysis (K=3) by 27-plex SNPs into the 35 populations derived from East Asia, Europe and Africa

表2 35个人群在 K = 3 条件下的群体祖先成分分析结果 Table 2 Ancestral component analysis of 35 populations at K = 3

根据群体祖先成分比信息, 使用FigTree v1.4.2软件建立系统发生树(图2)。结果显示, 所有人群按照不同祖先地域分布/来源和遗传关系而依次列为五支, 第1支以门德人(MSL)、艾森人(ESN)等非洲人为主再加巴巴多斯岛人(ACB), 第2支以汉族(CHB、CHQ、CHS)、东京日本人(JPT、JEA)、朝鲜人(KEA、KKS)等东亚人为主再加中国东乡族人(GSDX、XJDX), 第3支以中国新疆维吾尔族(CUX)、哈萨克族(CKX)、柯尔克孜族(CZX)为主, 第4支以孟加拉人(BEB)、泰米尔人(STU)等南亚人为主, 第5支以英国人(GBR)、丹麦人(DNE)、伊比利亚人(IBS)等欧洲人为主。

图2 东乡族等35个人群祖先成分系统发生树Fig.2 Phylogenetic tree of 35 populations (China’ s Dongxiang-ethnic population enclosed) by ancestry-information

根据祖先成分, 使用SPSS 17.0 进行主成分分析(principal component analysis, PCA)。从图3可以看出, 第一和第二主成分可解释95.14 %的变量差异, 因为第一主成分F1(55.90%)将非洲人群与东亚和欧洲人群区分开来, 第二主成分F2(39.24%)将欧洲人群与东亚人群区分开来, 而中亚和南亚人群居于欧洲和东亚人群之间。中国东乡族人群则分布在以东亚人群为主的人群集合中。

图3 东乡族等35个人群祖先成分的主成分分析Fig.3 Principal component analysis of 35 populations (China’ s Dongxiang-ethnic population enclosed) by ancestry-information

3 讨论

至目前为止, 已有利用SNP位点多态性检验应用于个体识别鉴定的研究报道, 如由欧洲法医实验室开发的21 SNP组合和52 SNP组合[7]。与此同时, Kidd等[8]人举例说明了身份鉴定SNP位点的选择和组合的研发标准。尽管众多研究报道了SNP应用于个体识别的案例, 但实际工作中很多案件的侦查需要的不仅仅是单纯的基因多态性信息, 还需要这些信息背后所包含或所从属的信息, 即该个体的具体生物学特征, 如身高[9]、肤色[10]、虹膜颜色、毛发颜色等; 或群体学背景, 如种族[11]、地域来源[12]等。27重SNP种族推断体系通过检测人群间分布差异较大的位点组合, 可以推断DNA供者最有可能的种族来源, 并能获取供者来自各个种群成分的百分比, 进而为案件侦查提供指向性的线索。

根据对考古学、语言学方面的研究, 可认为中国东乡族是14世纪后半叶即元末到明初由居于东乡地区的回族人、蒙古人、汉人以及藏族人共同融合而形成的, 其民族语言东乡语隶属于蒙古语系, 但没有形成自己的文字[13]。在群体生物学遗传关系方面, 根据STR和线粒体方面的研究, 则可认为东乡族与回族、藏族及北方汉族接近, 特别是与地理位置上临近的撒拉族、保安族遗传关系非常接近[2, 14]。由此可见, 将东乡族人群归类于东亚人群, 不论在语言学还是生物学方面都有据可依, 本研究结论也支持该观点。根据27重SNP分析发现, 在主成分分析或系统发生树分析时, 甘肃东乡族和新疆东乡族在东亚人群的独立支/簇中与汉族、朝鲜族、日本人、京族等人群的遗传关系较远而独立成支/簇。而在对东乡族个体进行Structure分析时发现, 个别个体的遗传背景中欧洲成分占比很高, 尤其是甘肃东乡族, 有4个个体的欧洲成分占比超过东亚成分。考虑到东乡族生活的地理区域相对封闭, 且由于宗教信仰等历史原因, 东乡族与外族人通婚的频率较低; 再结合采样时对供样个体进行过族系筛查, 基本能排除这些个体在证据层面有欧洲亲缘的可能性, 但却也可由此推断, 东乡族的起源不是单纯的由回族、汉族、藏族、蒙古族融合并分支形成的。结合史料分析, 本研究倾向于认可东乡族的起源与元代蒙古军带回的中亚工匠、签军有关, 亦或与当地蒙古族、回族、藏族人群的融合有关[1, 15, 16], 但这一推论还需要对甘肃地区的回族及河西走廊一带其他民族或人群进行更深入的研究分析后才能确定。

综上所述, 本研究认为:首先, 27重SNP种族推断体系应用于法医物证鉴定对三大人群(东亚、欧洲、非洲)进行群体生物学遗传成分区分是科学和可靠的; 其次, 对东乡族人群利用27重SNP种族推断体系是可以较好区分的, 但鉴于该人群在历史发展过程中存在着无法论证的来源问题, 单纯依靠常染色体SNP数据进行个体的族群判别可能还存在不足, 故在法医物证鉴定中还需综合其他遗传信息进行更系统的分析。

本文使用的27重SNP种族推断体系若在公安系统推广使用, 无需添置额外的特殊仪器设备, 且操作难度适中, 扩增检测反应可在一个试管内完成, 故较适宜于当前条件下大多法医DNA实验室推广使用。虽则, 随着二代测序平台的发展和全基因组测序技术的推展, 27重SNP种族推断体系面临的信息含量问题将会成为制约其更进一步应用的主要因素, 因而开发一套基于现有27重SNP种族推断体系的升级版及其高通量分析测试技术势在必行。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 谢小冬, 王勋陵, 安黎哲. 从群体遗传的DNA线索看东乡族族源问题[J]. 民族研究, 2002 (1): 35-39. [本文引用:2]
[2] LIN H B, FAN H, ZHANG F, et al. Genetic relationships of ethnic minorities in Southwest China revealed by microsatellite markers[J]. PLos ONE, 2010, 5(3): e9895. [本文引用:2]
[3] WEI Y L, SUN Q F, LI Q, et al. Genetic structure and differentiation analysis of a Eurasian Uyghur population by use of 27 continental ancestry-informative SNPs[J]. International Journal of Legal Medicine, 2016, 130(4): 897-903. [本文引用:1]
[4] WEI Y L, WEI L, ZHAO L, et al. A single-tube 27-plex SNP assay for estimating individual ancestry and admixture from three continents[J]. International Journal of Legal Medicine, 2016, 130(1): 1-11. [本文引用:1]
[5] 魏丽, 魏以梁, 江丽, . 27-plex SNPs复合扩增检测体系构建与应用评价[J]. 中国法医学杂志, 2016, 31(1): 13-17. [本文引用:2]
[6] 刘海渤, 孙启凡, 陈健刚, . 27重SNP种族推断体系准确性验证研究[J]. 中国法医学杂志, 2015, 30(6): 563-566. [本文引用:1]
[7] SANCHEZ J, PHILLIPS C, BORSTING C, et al. A multiplex assay with 52 single nucleotide polymorphisms for human identification[J]. Electrophoresis, 2006, 27(9): 1713-1724. [本文引用:1]
[8] KIDD K K, PAKSTIS A J, Speed William C, et al. Developing a SNP panel for forensic identification of individuals[J]. Forensic Science International, 2006(1), 164: 20-32. [本文引用:1]
[9] KIMURA T, KOBAYASHHI T, MUNKHBAT B, et al. Genome-wide association analysis with selective genotyping identifies cand idate loci for adult height at 8q21. 13 and 15q22. 33-q23 in Mongolians[J]. Human Genetics, 2008, 123(6): 655-660. [本文引用:1]
[10] ANNO S, ABE T, SAIRYO K, et al. Interactions between SNP alleles at multiple loci and variation in skin pigmentation in 122 Caucasians[J]. Evolutionary Bioinformatics Online, 2006, 3(1): 169-178. [本文引用:1]
[11] YOSHIDA Y, KUBO S. Y-SNP and Y-STR analysis in a Japanese population[J]. Legal Medicine, 2008, 10(5): 243-252. [本文引用:1]
[12] ZHOU R X, YANG D Q, ZHANG H, et al. Origin and evolution of two Yugur sub-clans in Northwest China: a case study in paternal genetic land scape[J]. Annals of Human Biology, 2008, 35(2): 198-211. [本文引用:1]
[13] 伊布拉黑麦, 陈元龙. 东乡族的书面语言——“小经”文字[J]. 西北民族研究, 2015(4): 61-68. [本文引用:1]
[14] WANG W, WISE C, BARIC T, et al. The origins and genetic structure of three co-resident Chinese Muslim populations: the Salar, Bo’an and Dongxiang[J]. Human Genetics, 2003, 113(3): 244-252. [本文引用:1]
[15] 陈其斌. 东乡族族源中藏族成分的历史考察[J]. 青海民族研究, 2007, 18(3): 52-56. [本文引用:1]
[16] SHOU W H, QIAO E F, WEI C Y, et al. Y-chromosome distributions among populations in Northwest China identify significant contribution from Central Asian pastoralists and lesser influence of western Eurasians[J]. Journal of Human Genetics, 2010, 55(5): 314-322. [本文引用:1]