摘要:Rootsi等于2007年初发表了一篇研究Y染色体单倍群N的论文。这是至今关于单倍群N的最全面、最详细的研究。论文中尚未完美地解释的东欧的N3多样性比西伯利亚高的结果。本文应用Derenko等新发表的数据,更好地解释了这个结果。同样,应用Derenko等的Y单倍型分类,对之前文献报道的土耳其的N*个体进行深入分型,发现他们大多是N2-A,由此得到了突厥东亚起源的强有力证据:东亚起源单倍群N2-A是突厥的特征单倍型,而N2-A2几乎只存在于突厥的后裔中。经分析土耳其人中的R1b1b-M73,认为它的分布与中国古代部落月支的迁徙有关。同时探讨了R1a1、Q在突厥形成过程中的演变;并推断突厥祖先丁零-铁勒诸部的主要Y-SNP类型为N3a1、N3a2和N2-A。乌拉尔族群的起源也与突厥群体有很大关系。
正文:本文翻译并评论了Rootsi等于2007年初发表的一篇研究Y染色体单倍群N的论文。这是至今关于单倍群N的最全面的、最详细的研究。文章指出,N在东欧的高频是源于约1.2~1.4万年前的来自西伯利亚南部的迁徙;频率最高的下游单倍群N3,可能起源于今天的中国,然后在西伯利亚经历多次瓶颈效应最后扩散到东欧。另一个下游单倍群N2,形成了亚洲(N2-A)和欧洲(N2-E)两个不同的STR分支,N2-E现在主要分布在芬兰-乌戈尔语人群以及相关人群。此文得到了N的下游支系的起源地以及分化年代,给出了N在世界范围内各个人群中的分布。
一、单倍群N的起源与扩散。Rootsi的论文提供了全世界范围内N的支系分布,但中国境内的分布却不够清晰。而Xue[1]的文献提供了目前报道的最详细的划分(表1:中国的各个群体中单倍群N的各分支的分布)。与Rootsi的论文中彝族有30.2%的N*一样,生活在云南省的同属于彝语支的哈尼族也有较多的N*。更值得注意的是,N1出现在南方少数民族布依族中,再一次提示N、N1的南方起源。从上表还可以看出,N也普遍存在于通古斯语支中,N2在赫哲族中达到17.8%。文献[2]报道了西鄂温克人(W.Ewenks)中有27.5%(11/40)的N2;文献[3] 报道了鄂霍次克鄂温克(Okhotsk Evenk)、叶尼塞鄂温克(Yenisey Evenk)、沃且/那乃(Ulchi/Nanai)、涅吉达尔(Negidal)分别有37.5%、9.7%、9.4%、35.2%的N3。这些数据说明,N深度分布于通古斯语支之中。
根据Rootsi文,结合Derenko 发表的最新数据[4]计算的N各个分支的年代,从现有的各个支系的分布推断,单倍群N的迁徙大致是这样的:沿藏缅走廊北上-河套地区-贝加尔湖以东地区。至少在12000年前的时候,已经达到贝加尔湖与大兴安岭之间。在这里,N3a1发展壮大,迅速向东北、西北扩散,成为乌拉尔语系民族的重要单倍群。后来约于5000年前N3a1又诞生了N3a2,主要存在于贝加尔湖以东地区,N3a2也不断迁徙进入东欧。此前,一部分N2-A向西迁徙到达乌拉尔地区,途中经历了强烈的瓶颈效应,约于7000年前诞生了N2-E;然后随着乌拉尔语而扩散到科米(Komi)、玛里(Mari)、维普(Vepsa)、鞑靼(Tatar)等人群中。一部分N2-A向西南进入萨彦岭的草原地带,约于2000年前,诞生了仅仅存在于突厥后裔的图瓦人(Tuva)和图法拉人(Tofalars) 中N2-A2。
二、N3的下游分支与多样性。N3的STR多样性是之前的研究关注的重点。至今所有的研究都表明,欧洲的N3的STR多样性要比西伯利亚的要高[5、6、7],因此N3有可能起源于东欧,然后向西伯利亚传播[8]。但是,Rootsi的研究应用更大的样本量计算显示,尽管N3在中国北部的频率很低并局限在少数人群中,那里的STR方差却很高,比阿尔泰和伏尔加-乌拉尔地区(分别是0.16、0.17)都高,因此说明了N3扩散的起源地是中国北部而不是南部西伯利亚。
STR结构图同时得到了两个不同的分支,但是未能提供进一步的数据。文献[4]为此提供了详细的证据,估算了N3各个支系在不同地区的年代。引用如下:“N3的STR结构图显示了两个不同的支系(我们可以看到,N3a2诞生于N3a1)。N3a1的第一次扩张约10000年前发生在南部西伯利亚,然后向欧洲扩散,在那里它的年代约为8000年。而更年轻的支系N3a2,大约于4000年前诞生在南部西伯利亚(可能是贝加尔地区)。中接网络结构图和方差分析显示N3a2进入东欧的过程中经历了多次的瓶颈效应。……
N3a1在西伯利亚的年代比在欧洲的更古老(分别为1万年和0.82万年)。支系N3a2的STR有不同的拓扑结构。它在南部西伯利亚地区有星状扩张图形,主要出现在贝加尔湖地区的布里亚特人中。但是,它进入东欧的部分在系统发生树上显得十分复杂,主要出现在伏尔加-乌拉尔地区的芬兰-乌戈尔语以及突厥语人群中。比起西伯利亚人群,在伏尔加-乌拉尔人群中观察到了较高的N3a2的方差(0.66万年对0.37万年),可能是源于以下原因:多次瓶颈效应,或东欧的N3a2样本量太少。另外,N3a2的STR结构图中的东欧部分显示了明显的非星状拓扑的结构特征,这会降低基因年代计算的准确性(Sailard et al.2000)。
上文中最后一句话的更确切的含义是:N3a2起源于西伯利亚的N3a1,且西伯利亚的N3a1的方差要比欧洲的方差高。而欧洲的N3a2的西伯利亚方差要比西伯利亚的高,这是由于多次复杂的迁徙叠加造成的假象。综合起来,对于N3的总体的方差,欧洲的也就会比西伯利亚的高。但在STR结构图中就会表现出来:这些单倍型彼此离散,没有明显的联系。正如Rootsi 在论文中提到的,“这么高的STR方差可能不是当地的奠基者类型长期演化的结果,而是多个不同的奠基者类型混合的结果。”关于挪威、瑞典、芬兰的Y-SNP的研究都说明了这一点[9、10、11]。
三、N2的下游分支与土耳其N的STR。这篇文章指出,N2的STR结构图区分了的亚洲支系N2-A和欧洲支系N2-E,更古老的N2-A的年代反而小一些,与N3a2的情况类似,又一次显示了西伯利亚人群中有更强烈的瓶颈效应,使得很多的原始单倍型经过漂变而消失了。文中提到,土耳其的14个体属于亚洲支系N2-A。而文献[4]提供了N2下更详细分类的奠基单倍型(founder haplotypes),并指明N2-A2几乎只存在于突厥的后裔中(Tuva、Tofalars),N2-E主要存在东北欧的乌拉尔语以及相邻人群中。由于文献[12]提供了土耳其N的样本的所有STR数据,因此我利用这个奠基单倍型对这些数据进行了分类(表2)。对照文献[4]提供的STR表(见引文附表1),找到了土耳其样本的匹配单倍型(表3)。
总的说来,从STR 单倍型可以看见,12例NxN3的土耳其样品中,有7例(58.3%)能找到匹配的样本,除1例在卡尔梅克(Kalmyks)外,其中6例(50%)都在阿尔泰地区的突厥人后裔中(Khakassians、Tuva、Tofalars)。在样本量这么少的情况下,如此高比例的匹配是相当令人惊讶的。这意味着土耳其的这部分人的祖先,直接来源于阿尔泰地区突厥人。另外,即便没有找到匹配类型的个体,同样可以找到大量的“一步突变相似型” (one-step neighborhood),这意味着以后随着阿尔泰地区样本量的增大,这些个体也可能找到匹配类型。因此可以说,N2-A是突厥的特征单倍型,而N2-A2几乎只存在于突厥的后裔中。表3:土耳其样品与Derenko等报道样品的STR单倍型匹配分析。
四、土耳其人Y染色体中的罕见类型R1b1b-M73。R1b1b-M73是一个罕见的单倍型,至今还没有专门的描述。它定义为Y染色体JARID1D基因内含子11中两个碱基对(GT)缺失,refSNP ID: rs2032634,首先被P.J. Oefner发现。Underhill等于2000年[13]首次报道了中亚/西伯利亚的6例样本,但没有提供STR数据。文献[12]报道了土耳其有4例,文献[14]报道了亚洲的19例样本,两篇文章都提供了10个STR位点的数据。此外,Italy DNA Project(familytreedna.com)显示意大利有2例,但也是欧洲唯一发现的两例。也就是说,目前全世界仅发现了31个样本(表4、表5)。我们期待Genographic Project能够分析到更多的样本。下面试就这个单倍群做一些分析。
首先,R1b是一个广泛分布的类型,在西欧、高加索地区有较高比例的分布。但那些地区的类型都属于R1b1c-M269下的分支,与R1b1b-M73不同。根据研究,R1b在末次冰期之前就已经扩散;末次冰期到来的时候,群体生存空间被压缩到“避难绿岛(refuge)”中。在末次冰期之后,R1b1c-M269的下游支系分别由伊比利亚[15]和高加索[12]扩散开来。这个结果提示,R1b1b-M73是R1b在末次冰期之前扩散过程中,遗留在中亚的一部分。但是M73的样本量过少,分布也很离散,我们只能在较大范围内猜测,它在末次冰盛期的避难绿岛可能在帕米尔至阿尔泰山一带。
其次,R1b1b-M73现在的频率很低,但在某些彼此隔离人群中却很高,比如中国的纳西族和巴基斯坦的千户(Hazara)人。这两个群体之间的联系实在是难以想象。巴基斯坦的Hazara人在阿富汗是一个人口众多的民族,有蒙古人种的体质特征。文献[14]显示,在巴基斯坦的Hazara人中有41.7%(比例确实很高)的C3,33.3%的R1b1b,Q1和O3分别为8.3%,R2和J2a分别为4.1%。基本上可以确定R2和J2a为迁徙到阿富汗以后融入的部分,而C3,Q1和O3来自东亚。R1b1b则应当来自中亚,或者更加东面的地方。需要分析STR的数据,才能得到更深入的理解。而中亚的群体历史上主要为贵霜王朝的人群。公元前 177至前176年间,匈奴冒顿单于遣右贤王大败月氏。大月氏西迁侵入塞人地域伊犁河流域,后又遭乌孙的侵入继续西迁,最终在中亚阿姆河流域定居立国,成为强大的贵霜王朝的居民的一部分(公元45~250年)。但大月氏中的一部分仍然留在伊犁河一带,即《汉书·西域传》载:“故乌孙民有塞种、大月氏种云”[16],成为现今哈萨克族的族源的一部分[17]。表4:文献公布的M73突变型在各人群中的比例;表5文献公布的M73的STR数据。
土耳其民族源于中亚西突厥乌古斯人的游牧联盟,他们此时的活动地域正好包含了哈萨克斯坦大部[18]。据史料记载,纳西族原为游牧在青海省黄河、湟水谷地的古旄牛羌人。约公元前200年后,牦牛羌陆续向南迁徙至四川西南、云南西北一带,并分化成不同的民族,其中就包括纳西族[19]。遗传学[20]和语言学[21]的证据都说明,纳西族与藏族的关系非常密切。《史记·大宛列传》记载:当月氏离弃河西时,有一小部分越祁连山,“保南山羌,号小月氏”[22]。这部分月氏人日后长期留住该地,与青海羌人逐渐融合。《后汉书·西羌传》载,到汉武帝时出山与汉人杂居,分为七个大种,住在湟中令居一带的称“湟中月氏胡”,另有一部居张掖的称“义从胡”,后融入羌族,语言服饰均与羌人相似,但仍然与羌族区别明显,故仍名“胡”。《后汉书·西羌传》即云:“湟中月氏胡,其先大月氏之别也”。并且明确说明:“其羸弱者南入山阻,依诸羌居止,遂与共婚姻”[23]。小月支保南山羌与纳西祖先在湟中在时间,地点上切合无间。因此推断,纳西族中的R1b1b可能来自小月支。
再次,分析STR数据,在DYS19的重复数上,形成了明显的簇。甘肃以东的样本全部为13;Hazara的样本全部为14;新疆维族的样本全部为15(暂不考虑土族特殊的16)。土耳其人中有DYS19为14、15的样本,主要是14,而没有13,与以下事实是相符的:土耳其直接起源于中亚地区的乌古斯部落,而不是新疆的;而Italy的数据属于土耳其/Hazara这个簇。以上分析显示,古代月支人的Y-SNP中,有一部分是R1b1b-M73。R1b1b-M73的分布与古代部落月支的迁徙有关。
五、与突厥起源有关的其它单倍群。1、R1a1-M17。《周书·突厥传》称:“突厥之先出於索国” [24]。突厥西迁到中亚以后,融合了众多的当地居民。研究者检测叶尼塞河中游米努辛斯克盆地-克拉斯诺亚尔斯克地区5500至1800年前的古代DNA[25],结果显示有高比例的R1a1-M17(11例中有10例)。这些地区,现在是突厥语人群聚居的地方(Altaians-Kizhi、Shors、Tofalars、Khakassians)。在这些人群中,同样可以检测到一定比例的R1a1[26]。因此,R1a1-M17也应该是突厥语人群中的重要组成部分。但是,M17下尚未能发现有效的区分人群的突变。按照最新的分类[26],也只能大致区分出,东欧的R1a1与南西伯利亚的R1a1在STR上形成不同的簇,还无法与晚近的历史事件联系起来。
2、Q。我们还可以看到,文献[12]在土耳其发现了10例Q。Q被认为起源于中亚-阿尔泰地区[27],现在在Kets(93.8%)和Selkups(66.4%)中比例较高[28]。Kets和Selkups被认为是来自目前居住地的南方--萨彦岭斜坡地区[29、30](Kets所说的语言是一种孤立语,又有分类法称之为叶尼塞语系)。萨彦岭地区现在正是图瓦人聚居的地方。从Seielstad等[31]报道的欧亚大陆各人群中Q的比例看,Q在突厥语人群中的比例也是不小的,在图瓦人(Tuvinian)、土库曼人(Turkmen)和乌兹别克(Uzbek/Tashkent)中分别达到17%、10%、14%。特别是土库曼人,历史上与九姓乌古斯(九姓突厥)、塞尔柱突厥人的关系是密切的。而Uzbek族在形成的过程中,也融合了大量的突厥语部落,如克烈部、乃蛮部等[32]。而在属于乌拉尔语系的匈牙利人[33]的113个样本中,Q的数量(3例)多过N(1例N3)。甚至在同样源自东欧的Ashkenazi Jews[34]中,Q也达到5.2%。可见,N从南西伯利亚向西迁徙扩散的过程中,伴随着一定比例的Q。其中细节的故事必定更加引人入胜。
3、N3。根据“突厥之先出於索国”看来,突厥汗国的王族来自中亚的塞种。但是,突厥在早期就融合了铁勒部落阿史德氏,并且在降服了高车人五万部落之后才发展壮大。后来,异姓突厥也融合进来,使得“突厥人”几乎称为所有铁勒人的统称。突厥汗国的民众,大部分来源于丁零-铁勒诸部。考古学者,人类学者已经对雅库特人(Yakuts)和布里亚特人(Buryats)的起源做了研究。俄罗斯的考古证据证实[35],公元五世纪中叶至六世纪初,贝加尔湖地区出现了一支灿烂的古代文化——骨利干(Kurykan,火儿罕),它的居民是操突厥语的游牧民,在公元第一个千年为文献所记录。基于多种文化因素的相似性,比如岩画、陶器、骑马的服饰、马缰的装饰以及民俗等等,人类学家认为,在公元11至13世纪蒙古人扩张之后,有一支骨利干人沿着勒拿河向北迁徙,融合了当地的土著居民,形成雅库特人[36、37]。研究表明,雅库特人有极高比例的N3(94%)[2],全部都是N3a1[4] (以及本文评论的文献)。
根据历史记载[38],古铁勒部落之一拔野古部(巴尔虎)最初居住在漠北,其后迁入贝加尔湖两岸。此时,强大的骨利干人已被豁里-秃马特(Polecat-tumat)打败,向更北方迁徙。此后,拔野古(巴尔虎)逐渐融合为蒙古部落,成为布里亚特族的一部分。文献[4]的数据表明,布里亚特人中的N几乎全部都是N3a2(97.6%),而完全没有与骨利干人有联系的N3a1,说明布里亚特地区的N3a2是N3a1消失以后来到那里的。文献[39]用强有力的数据说明了,布里亚特人的mtDNA类型是蒙古语群体和突厥语群体的类型的混合,从另一方面支持了以上融合的说法。
以上论证说明,丁零-铁勒诸部的主要Y-SNP类型N3a1、N3a2和N2-A。遗憾的是,至今仍未有萨莫耶德语族和楚瓦什人中N2的STR分析。萨莫耶德语诸民族中有很高比例的N2。楚瓦什语有原始突厥语的特征。更深入的研究有助于更清楚地了解N2在乌拉尔语人群和突厥语人群中的作用。另外,Karafet等[40]的论文显示,维吾尔族有高比例的R1b(17.6%)。中亚的其他人群也有高比例的R1xR1a1[41],比如Uzbek/Kashkadarya的21%、Tajik/Khojant的32%。因为高加索类型的R1b1c的扩散范围很小[12],因此这些个体都很有可能是R1b1b-M73。希望学者们在以后的研究中,更加关注R1b1b-M73。
|