Nature丨我国科学家系统揭示东南亚大陆复杂人群遗传结构与演化史
发布时间:2025年05月29日
2025年5月14日,中国科学院昆明动物研究所联合东南亚多国科研机构,历时十年攻关,在东南亚人群基因组研究领域取得里程碑式突破。“东南亚人群基因组计划”首期成果(SEA3K)在Nature发表,题为:Genome diversity and signatures of naturalselection in mainland Southeast Asia,首次系统揭示了东南亚大陆复杂的人群遗传结构与演化历史。
图1.东南亚人群基因组计划一期(SEA3K)的主要发现
东南亚大陆(Mainland Southeast Asia,MSEA),地处南亚、东亚与东南亚岛屿的交汇地带,是现代人最早进入亚洲东部的地区,也是人类迁徙与文化交流的重要枢纽。该地区有近3亿人,涵盖多种民族、语言和文化形态,反映出深厚的人群演化历史。然而该地区的基因组学研究长期缺失,严重制约了人类环境适应性进化与疾病遗传机制的深度解析。根据统计,尽管包括中国西南在内的东南亚是土著人群最多的地区(占1/3的全球土著人群),在已报道的全球67万例人群全基因组测序数据中,只有1.57%是东南亚人群,仅包含163个土著人群个体。
为了填补了该全球基因组“最后一块拼图”并解码东南亚人群的遗传演化过程,中国科学院昆明动物研究所牵头,联合泰国、柬埔寨等东南亚多国的34个科研团队,组织发起"中国西南与东南亚人类学联合研究联盟(CASEAC)",建立跨学科协同攻关团队。研究团队深入东南亚大陆雨林腹地,历经十余年,采集了涵盖五大语系、6个国家、30多个地方的东南亚人群样本,并成功完成了3023例深度全基因组测序,包含40例高精度长读长测序数据,构建了目前最完整的东南亚人群遗传变异数据集——SEA3K。
图2.东南亚基因组计划一期SEA3K的人群采样分布和组成
研究人员通过对3023个个体进行深度二代短读长全基因组测序(平均43.5×),以及40个代表个体的深度三代长读长全基因组测序(平均32.7×),识别到近8千万个短序列变异(SNV和Indel),以及近10万个结构变异 (SV),其中,超过两千万的短序列变异和近2.5万的结构变异是东南亚人群中新发现的。考虑到东南亚人群丰富的基因组独特性,研究人员基于SEA3K数据集构建了一个高质量的基因型填补参考面板,显著提升了目前对于东南亚人群基因型填补的准确性。目前SEA3K参考面板已经发布在国家基因组科学数据中心(https://ngdc.cncb.ac.cn/SEA3K/)。
研究人员利用SEA3K数据深入分析了群体遗传结构,首次精确描绘了东南亚与东亚人群的遗传亲缘性及地理分化模式。发现大多数东南亚人群的遗传结构主要与他们的地理分布格局一致,而非按语系聚类,表明人群间的分化主要通过地理隔离形成,印证了该地区复杂的遗传交融与语言更替历史。研究人员识别到东南亚人群的四种关键遗传成分,其中最主要的一类是在柬埔寨及安达曼群岛人群占主导的独特古老成分,可能源自古老人群;此外,研究证明了东南亚人群在末次盛冰期经历了严重的瓶颈效应,尔后在农业扩张驱动下人口爆发式增长。
图3.MSEA人群的遗传结构和组成
我国西南与东南亚地区独特且多样的气候条件以及地理环境是带来该地区人群多样性重要原因之一。其中,热带雨林环境对当地人群的遗传适应产生了深远的影响。热带雨林复杂的气候特征,如高湿度、高温度、病原体暴露和密集的森林生态系统,促使了多种适应性进化,塑造了该地区人群丰富多样的表型和疾病模式。
研究团队采用CMS评分方法在东南亚人群基因组中鉴定到44个受到强烈正选择的区域,涵盖89个基因,其中72个为首次发现的正选择靶点。这些基因涉及体质、免疫、代谢等适应性特征,揭示了东南亚人群应对热带环境的独特进化策略。例如,SLC245基因通过调控皮肤色素沉着抵御热带地区的强紫外环境,CDC42SE2可以减轻热带雨林地区蚊虫叮咬反应,MRPS22基因促成的卷发表型可加速散热等。研究发现1号染色体上有一个长达443kb并在东南亚人群特异富集的基因组区域,该区域包含了与卷发相关的TCHHL1、TCHH等基因,以及与皮肤屏障相关的FLG等基因,进一步说明东南亚人群中受选择的基因与热带雨林环境适应密切相关。此外,研究基于三代长读长全基因组测序数据,首次发现了大量在东南亚人群特异富集的大尺度结构变异。例如,PEX14基因内含子区7439-bp缺失在东南亚人群中特异富集,与骨密度等潜在的环境适应特征相关。进一步研究发现东南亚人群的适应性候选基因绝大部分是通过祖先群体既有变异受到自然选择来实现的,说明祖先群体的既有多样性可能是该地区人群适应性进化的主要模式。同时,研究人员发现自然选择在东南亚人群的基因组的调控序列和蛋白质编码区都起作用,但是与生活在非洲人群的热带雨林适应在变异位点上存在显著差异,反映了东南亚土著人群在与非洲土著人群在趋同演上化的独特性。
图4.东南亚大陆人群基因组的自然选择信号和潜在的环境适应表型
目前大量关于古人类基因组的研究表明,现代人的基因组中至少存在两种已灭绝古人类的基因序列遗存:尼安德特人和丹尼索瓦人。其中,亚洲人中存在来自古人类丹尼索瓦人的基因渗入因其丰富的模式和多样的比例而受到广泛关注。为了系统探究丹尼索瓦人对现代人类的基因渗入模式,研究团队利用SEA3K高精度人群变异位点数据,结合全球人群基因组数据,对古人类基因渗入进行了系统分析,证明东南亚人群中确实存在多种丹尼索瓦人渗入模式。除了之前报道的东亚人群的两次渗入事件,首次在东南亚土著人群中发现了第3次基因渗入。这一发现对人类进化具有重大意义,表明丹尼索瓦人可能在旧石器时代亚洲东部地区广泛分布,并且在东南亚大陆与现代人可能发生了多次的混血。研究同时鉴定出多个具有正向选择信号的古人类基因片段,涉及代谢调节、免疫增强及肌肉发育等关键功能,提示来自古人类的基因序列很可能为东南亚人群适应热带雨林环境产生了重要贡献。
图5.MSEA人群中独特的古人类丹尼索瓦人基因渗入模式
东南亚地区地处热带-亚热带,炎热潮湿的热带雨林等环境塑造了当地人群丰富且独特的表型特征,以及全球每年三分之一的热带高发疾病,这些疾病严重影响了该地区的人口健康和地区经济发展。为了揭示东南亚地区高发疾病的进化遗传模式,研究团队通过对SEA3K数据进行系统注释,鉴定出10个东南亚特异高频的致病变异。其中最显著的一个例子是α地中海贫血相关基因HBA2上一个致病变异,该变异在东南亚人群中频率高达28.6%,而在其他人群中几乎为零。研究人员认为这是地中海贫血风险变异与抗疟疾之间平衡选择的演化结果。同时,研究首次发现了189个全新纯合子基因功能丧失变异,覆盖158个基因。这些变异为探索罕见病与遗传变异的关联提供了天然研究模型,对未来东南亚地区人群的疾病风险评估与遗传咨询具有重要意义。
东南亚是全球人类基因组研究“最后一块拼图”,该地区人群拥有极高的遗传多样性,是全球最重要的人类演化区域之一。本研究发布了全球最大规模的东南亚大陆人群全基因组测序数据SEA3K。这一数据集全面描绘了该区域人群的遗传变异图谱和基因组结构,并结合群体遗传学和医学遗传学分析,揭示了该区域基因组格局如何受到古代族群分化、混合、适应、人口规模变迁及古人类(如丹尼索瓦人)基因渗入的综合影响。该研究成果标志着全球人类基因组多样性研究的重要突破,填补了全球基因组“南方盲区”,重新定义了人类多样性研究的全球图景。为解析人类表型与环境互作机制、热带疾病遗传基础提供了关键支撑,对推动区域精准医学、跨境民族健康治理具有重大科学与社会意义。同时,该研究作为中国主导的跨国合作范式为解析人类生物多样性树立了新标杆,是“一带一路”科技合作的典范。
在首期聚焦东南亚大陆取得重大成果的基础上,目前中国科学院昆明动物研究所联合国际合作伙伴已经正式启动“东南亚基因组计划”二期工程(SEA10K),致力于构建覆盖东南亚全域的万人级高分辨率基因组图谱,深度解析东南亚大陆人群与东南亚岛屿人群的遗传多样性关联,为我国在东盟地区推进疾病联防联控、加强科技合作交流提供核心数据基石,并推动“一带一路”健康科学合作迈向新高度。
中国科学院昆明动物研究所和耀喜研究员、张晓明研究员、彭旻晟研究员、李玉春副研究员、博士研究生刘凯为该文章的共同第一作者,中国科学院昆明动物研究所宿兵研究员、张亚平研究员、孔庆鹏研究员为该文章的共同通讯作者。复旦大学、北京基因组研究所、西安交通大学、上海交通大学、中国科学院数学与系统科学研究院、云南民族大学,以及多个东南亚国家高校和研究机构等参与了该研究。
原文链接:https://doi.org/10.1038/s41586-025-08998-w