摘要:先前的东亚Y染色体系统发育关系表明,非洲起源的现代人最早定居在东南亚的大陆部分,然后大约在25000-30000年前向北迁徙并遍布整个东亚。但是东亚特有的Y染色体单倍群D-M174的分布却与这个图景不同:它仅高频分布于西藏、日本和安达曼群岛。在本文的研究中,我们从东亚的73个人群中搜集了超过5,000个男性样本,重建了单倍群D-M174的系统发育关系。我们的结果表明,D-M174是东亚地区现代人的极其古老的支系,在南北人群观察到了深度的分化。我们认为D-M174起源于南方,然后在约6万年前向北方扩散。这一扩散早于东亚其他单倍群的扩散。新石器时代汉文化的扩张和末次冰盛期是导致目前D-M174在东亚的不规则分布的关键因素。西藏人和日本人是两个早期人群的混合,即两个东亚特有的主要单倍群--单倍群O和D。
一、介绍:Y染色体Alu多态(YAP,即M1)定义了全球Y染色体系统发育树上一个很深的分支[1]。单倍群D/E进一步分化为下游单倍群DE*, D和E(原文图1)。单倍群D/E的分布极具地域性,三个支系的分布都局限在某一地理区域,因此对追溯人类早期的历史非常有意义(原文表1)。单倍群D/E中可能是最古老的支系单倍群DE*仅在非洲的尼日利亚人中有发现[2]。这一发现支持现代人类起源的“走出非洲”模式。由M40/SRY4064和M96定义的单倍群E(E-M40)也被认为起源于非洲[3-6],而后约在20000年前扩散到中东和欧洲[3、4]。有意思的是,东亚特有的由M174定义的单倍群D(D-M174)在西藏人和日本人中比例很高(D-M174),但在其他东亚人群以及邻近东亚(中亚、北亚和中东)的人群却极少(通常少于5%) [5-7]。日本人的D属于D-M174下面的一个独立的单倍群,这个单倍群由多个突变定义(例如M55, M57 和M64等)。这个分支与西藏人的不同,表明它们之间是深度分化的[1]。D-M174在东亚的不规则分布与东亚的其他特有支系不同,例如单倍群O下面的O3-M122、O1-M119和O2-M95[8、9]。在西藏和日本之外,D-M174也普遍存在于东亚南方的一些族群,包括中国西南云南省的操藏缅语的各个人群(14.0-72.3%),中国南部广西省一个苗瑶语人群(30%)(编者按:实指侗台语的拉珈人)和泰国的一个侗台语人群(10%)。这可能可以解释为很晚近的人群混合[9-11]。不过,最近的一项研究报道了安达曼人中有高频的 D-M174(56.25%)。他们是生活在印度洋中偏远岛屿的人群,被认为是东南亚最早的现代人群体之一[12]。Underhill等的另外一项研究认为,D-M174有可能在5万年前到达东亚[5]。这表明东亚的YAP支系应该是非常古老的。
我们之前的研究表明,东亚特有的且在东亚占主要的Y-SNP单倍群O-M175 (平均44.3%)反映了现代人在东亚的早期的扩张[8、9、13]。与O-M175在大多数人群占主要的情形不同的是,D-M174相对高频的人群主要位于东亚大陆的外围区域,且分布离散[7、9-11、13-18],这可能意味着人类史前的两次迁徙。一种观点认为,与O-M175一样, D-M174可能只是旧石器时代东亚人类向北迁徙的多个单倍群之一[8、9]。结果由于迁徙之初人群本身的结构(末次冰盛期可能是关键影响因素)以及后来汉文化(编者按:实指汉文化的前身华夏文化)的扩张, D-M174的分布被边沿化到现在的地理分布状态。另外一种推测是:D-M174的迁徙是一次独立的早期迁徙,与我们之前提出的不同[8,9]。为了回答这个问题,我们进行了全面的采样以及基因分析,分析涉及73个东亚和东南亚人群的5000个男性个体。基于Y-SNP/STR数据以及D-M174主要支系的年代计算,我们认为东亚地区的现代人在旧石器时代存在另一次独立的向北的迁徙,早于我们之前提出的向北的迁徙[8、9、13、19-21]。
二、方法:样本。本项研究中,我们总共采集了73个人群的5,134个无关男性样本。这些人群覆盖了东亚和东南亚的绝大部分区域(原文表2和图2)。大部分样本来自中国南部和西南部,中国80%的民族生活在这里超过3000年[22]。之前报道的样本也包括:来自宿兵等[7、9、17]的91个YAP+样本(日本16例、西藏54例、朝鲜人3例、关岛人1例、柬埔寨人1例、泰国人4例以及来自中国其他地区的12例)和来自Wells等[23]的116例 YAP+(原文表2)。
Y染色体标记和分型。首先对所有的样本都进行了3个Y染色体双等位基因位点的分型,包括M1, M40和M174。属于单倍群D的样本进一步进行了M15、M57和P47的分型,以便确定下游支系的归属。下游单倍群由相应的突变命名,遵从于YCC(2002)的规定。分型应用了PCR电泳,PCR-RFLP和测序等方法[7]。Y染色体双等位标记的系统发育关系如原文图1所示。我们对5134个样本进行了YAP基因座的分型,结果测得512例YAP+(9.97%)。加上之前发表的207例Yap+样本,一共719例Yap+进行了5个双等位标记(M174、M40、M15、M57和P47)和8个STR位点进行了检测(DYS19/394、DYS388、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS391、DYS392和DYS 393)。719例Yap+样本中,697例得到了所有SNPs和STRs的整组数值(数据见原文附件1)。
数据分析。在数据分析中包含了已经公开发表的数据,包括Hammer等(2006)中的90例,Thangaraj等 (2003)中安达曼人的19例以及Weale等(2003)中尼日利亚的6例。D-M174下游支系的分化时间由STR数据计算,采用SNP-STR结合的方法[4、24、25]。Y-STR的平均突变速率采用0.00069[26]。D-M174的各个下游单倍群的Y-STR单倍型网络结构图用NETWORK4.2.0.1(
www.fluxus-engineering.com)来构建,然后分层次组合到已有的D-M174系统发育树中(原文图1)。各人群的平均遗传基因多样性通过8个STR位点的等位基因的频率计算得到(Arlequin3.0,
http://lgb.unige.ch/arlequin/)。
三、结果。原文表1列出了已经报道的世界范围内人群的YAP+频率(根据参考文献的表注)。非洲有最高频的YAP+,全部属于下游单倍群E-M40。而D-M174总体来说是一个亚洲特有的,并在邻近的地区有少量分布,比如中亚、中东和东北印度。D-M174在东亚的平均频率为9.60%,高频出现在西藏(41.31%)、日本(35.08%)和安达曼群岛(56.25%),而在东亚其他人群中较为罕见(<5%)。在进行Y染色体双等位基因标记(M174、M40、M15、M57和P47)的分型之后,719例Yap+样本被划归6个下游单倍群:DE*、E-M40、D*-M174、D1-M15、D2-M57和D3-P47 (见原文图1)。719例Yap+样本的8个STR位点的进一步检测产生了697组完整的数据。如原文表2所示,与之前的报道一致[7、9-11、13、16],D-M174主要高频存在于中国西部、南部和日本。
D-M174的4个下游单倍群(原文图1)的分布格局彼此不同。D1-M15在东亚广泛分布,包括大多数藏缅语人群和侗台语人群(原文表2)。D*-M174和D3-P47主要分布在藏缅语人群中,零星出现在侗台语人群中。令人惊讶的是,我们在西藏人中发现了两例DE*,而这种类型之前仅在非洲被发现(尼日利亚)。与此不同的是,D2-M57仅出现在日本,这暗示着这个支系很早就与D-M174的其他下游单倍群分化开了(原文表2)。我们在西北汉族中识别出了4例E-M40,反映了来自中亚的晚近的基因交流[23]。为了得到D-M174各支系的详细结构,我们结合SNP和STR数据进行了网络结构分析(原文图3)。D*-M174有深层的结构,而且网络中没有环路。D*-M174包含了藏缅语人群、侗台语人群和安达曼人的各自不同单倍型。其中没有观察到共享的单倍型(指的是不同地区/不同语言的人群间),这表明D*-M174是一个很古老的支系。作为一个最普遍的支系,D1-M15的网络结构也呈现出深层的结构,通过很少的单倍型共享状态可以推知的清晰的南北分化。与此不同,D2-M57局限于日本,D3-P47在西藏高频出现而在邻近的中亚和侗台语人群少量出现。短距离和星状的网络结构表明,这两个单倍群在两个彼此距离遥远的地区的长期存在和人口的扩张。非藏族的藏缅语人群,像纳西族、普米族和羌族的单倍型仅是藏族单倍型的子集。这再一次证实了来自西藏的晚近的基因交流,就像文献记载的那样[7、22]。接下来我们估计了D-M174各个下游支系的年代。合并数据分析的结果表明,D*-M174、D3-P47和D1-M15的年代最为古老,分别是66392±1466年、52103±1327年和51640±2563年。日本特有的D2-M57是最年轻的(37678±2216年) (原文表3)。值得注意的是,得到的这些年代都比O3-M122的年代古老得多。O3-M122是我们之前报道另外一个东亚特有的单倍群(25000-30000年) [8]。
四、讨论。D-M174的不均匀分布可能导出另外一种关于东亚早期人群的起源和迁徙历史的推论。我们的数据不支持D-M174的北方起源假说,因为中亚人群中的D-M174是罕见的(原文表1),而且在网络结构图中中亚的单倍型都处在外围的位置(原文图3)。我们的数据也不支持D-M174起源于印度的观点,因为印度的996例样本中均没有检测到D-M174。而D-M174在印度脉东北的少量出现(232例中仅有2例),是因为那些人群实际是说藏缅语的人群(原文表1),西藏与印度有限的基因交流可能是由于喜马拉雅山脉巨大的地理隔绝效果[27]。另一方面,从Y染色体单倍型上看,居住在安达曼群岛上的土著居民在基因上是隔离的。尽管在表型上与其他的东南亚人群不同,安达曼岛的居民拥有大部分东亚特有的Y染色体支系,包括D-M174、O3-M122和O2-M95。这一点强烈暗示他们是一个旧石器时代人群的遗存[28]。同样的,从语言学和考古学证据看,侗台语人群和苗瑶语也是中国南方古老的人群[22]。网络结构分析显示D1-M15在南北人群(藏缅语人群对比侗台语/苗瑶语人群)间有明显的分化(原文图3)。考虑到北亚没有D-M174以及D-M174在中亚的零星出现,D-M174的北方起源假说是不太可能的。因此我们可以确定D-M174起源于南方,这与之前提出的“最早的现代人居住在东南亚的大陆部分”以及其他Y染色体支系的迁徙图景是一致的[8、9、13]。
在多篇反对东亚人群的南方起源的文献中,相比南方人群,在北方人群中观察到了更高的遗传多样性[14,30]。就像在我们之前的报告中已经讨论的那样,由于没有考虑到来自中亚的晚近的混合,Karafet等[14]的数据给出了一个北方的遗传多样性更高的假象。尽管同时用到了Y-SNP和Y-STR数据,薛雅丽等[30]的研究有同样的缺陷。在薛雅丽等(2006)的文章中,蒙古人、维吾尔人和满族人的遗传多样性更高,而文献记录中这些人群都与中亚人群或汉族有广泛的混合[22]。此外,薛雅丽等(2006)的文章中南方的人群数较少,长期地理上的隔绝导致的瓶颈效应会极大地影响到测得的遗传多样性。当大量的南方人群被包含到研究中来时,我们观察到这些人群的遗传多样性比北方人群的更高[8、9]。基于STR数据得到的南方人群的遗传多样性与北方人群的相当。西藏人有最高的多样性(0.525±0.294),接下来是侗台语人群(0.484±0.272),日本人(0.419±0.239)和苗瑶语人群(0.347±0.206)。没有计算其他东亚人群的遗传多样性是因为样本量太少。西藏人有最高的多样性主要是因为相比其他人群西藏人有庞大的D-M174有效群体数量。西藏人和日本人生活在两个彼此距离遥远的地区,他们的D-M174分属于两个不同的下游支系。这两个单倍群都有短距离和星状的网络结构,这表明在同一地区的长期存在和晚近的人口扩张(原文图3)。需要注意的是,遗传多样性的计算可能包含潜在的偏差,比如D-M174各支系年代的差异。……
人类约5万-7万年前出现在澳大利亚[38]。我们得到的D-M174的年代与以上观点是相符的,尽管现代人进入东亚和澳大利亚可能是彼此独立的迁徙事件[38]。计算得到的D-M174的遗传多样性的计算可能包含潜在的偏差,比如D-M174各支系年代的差异。之前仅在非洲发现的DE*现在在西藏也有发现,这支持D-M174的古老程度以及D-M174存在于最早定居在东亚的现代人之间。此外,D-M174的离散分布和它的古老年代支持一次旧石器时代东亚现代人的迁徙。我们之前关于O3-M122的数据显示了东亚地区现代人一次史前(约25,000-30,000年前)向北的迁徙。这种观点可以解释大部分现在东亚特有的Y染色体支系的系统发育关系(O3-M122、O2-M95和O1-M119) [8,9,13]。不过这个推测的迁徙图景无法解释D-M174的分布。首先,D-M174在东亚大陆的中心地带非常罕见,特别是在汉族人群中。尽管这可以假设为基因漂变的影响:假设D-M174在我们提出的这次向北的迁徙中伴随着O3-M122 ,则D-M174在西藏人和日本人中的高频需要重复发生的突变或独立且随机的富集过程。这显然是不太可能的。一次更早的独立的向北迁徙可以合理地解释D-M174目前在东亚的分布状态。由于存在更晚的O3-M122的向北迁徙以及新石器时代汉文化的扩张,我们推测D-M174在东亚中心地带的迁徙痕迹已经被O3-M122更晚但也更大规模的迁徙覆盖了。目前D-M174分布与东亚外围区域的状态与这一假设符合。同时,计算得到的年代也表明D-M174的迁徙早于O3-M122。
人们认为晚更新世早期(13.5至7.5万年前)东非的大干旱强迫现代人走出了非洲[31]。早期的人类可能占据了沿海地区并且将近水域的海产品作为食物[32]。然后,现代人沿海岸线扩散。在非洲之外,最早的现代人脚印化石的年代约为10万年左右[33]。8万至1万年间的末次冰期可能对现代人的迁徙产生了巨大的影响,当时的海平面在现在的海岸线之下50-200米[34]。这使更宽的陆地浮现出来了,比如日本与亚洲大陆之间,使人们能够在现在被大海隔离的陆地间迁徙。
人类化石记录以及之前的基因数据表明,定居于东亚最早的现代人稍晚于6万年[8、9、13、21、35]。比如,最早的澳大利亚古人类化石(蒙戈湖3号坑)的年代在45000±3000-62000±6000年之间[36、37]。而对现在的澳洲土著进行的mtDNA和Y染色体数据分析表明人类约在50000-70000年代比之前报道的基于Y染色体和mtDNA数据的年代更加古老[8、9、21]。为了确定年代是否被过高估计,我们使用同样的方法计算了DE*与E-M40的分化时间。计算得到的年代是27176年,比D-M174的年代年轻得多,但与之前的(约27800-37000年)报道接近[3]。因此,D-M174的古老确实反映了东亚早期人类的迁徙。Zhivotovsky (2001)提出的年代计算方法对有效人口数量以及晚近的人口扩张不敏感,尽管人群本身的结构也不能完全忽略。D-M174的古老也得到之前的研究的支持,在那篇文献中D-M174的年代超过50000年[5]。
单倍群D的分化年代约为6万年,这与它现在宽广但离散的地理分布是一致的。我们提出的旧石器时代的迁徙可能是现代人定居东南亚之后向北的最早的一次迁徙。因为末次冰期发生在8万至1万年前之间,D-M174向北的迁徙与之前提出的观点相符――人类可能以“猛犸大草原”上的食物为生[39]。除了后来的人口扩张,末次冰期可能也对D-M174现在离散的分布产生了影响。值得注意的是,最近的一项考古研究发现,人类可能在3万-4万年前就来到了青藏高原[40]。这比之前认为的要早的多,但是与我们的结果相符。冰后期海平面的上升最终导致了日本与亚洲大陆的分离,这可以解释D-M174现在在日本人群中的遗存。考古学数据证实现代人约在30000年前开始在日本定居[41、42],与我们计算得到的D2-M57的年代(约37678±2216年)相符。总而言之,目前西藏人和日本人应是由D-M174和O3-M122分别代表的两个古老人群的混合[7、10、16]。
五、结论。总结认为,我们论证了东亚人群旧石器时代的一次迁徙。这次迁徙早于之前提出的向北的迁徙。现在D-M174的离散分布主要归因于新石器时代晚期的人群扩张和末次冰期(说明:原文的图表并未复制到译文中)。