四川新闻|四川经济|区域视窗|文娱前沿|体育产业|教育在线|健康投资|科技聚焦|旅行天下|四川美酒|四川美食|成都看房

首页 > 经济在线 > 科技聚焦

全新的数据结构能够压缩整合上亿基因组

http://www.hrnewspaper.com/ 】 【2026-01-14 23:50:53】 【来源:科技日报】

  随着基因测序进入“亿级时代”,如何存储、分析和理解海量基因组数据正成为生命科学的新瓶颈。12日发表在《自然·遗传学》上的一项研究称,美国加州大学圣迭戈分校领导的团队开发出一种全新的“压缩式泛基因组”数据结构,可将数百万乃至上亿个基因组压缩并整合在一个统一框架中,为大规模基因组研究打开新空间。

  泛基因组学是生物信息学的一个分支,研究的是同一物种中大量不同个体的基因组。与只使用单一参考基因组相比,这种方法能更全面地呈现一个物种内部的自然变异与突变情况,对于追踪病毒变异、理解耐药性产生机制以及研究人类遗传多样性都至关重要。然而,尽管测序成本不断下降,现有泛基因组的数据结构仍难以高效表达数百万基因组之间的复杂关系,尤其是它们的共同进化历史和突变路径。

  此次,团队开发了一种名为“泛基因组突变标注网络”(PanMAN)的新型数据结构与文件格式。该方法不仅大幅压缩了泛基因组数据规模,还能同时编码系统发育关系、突变信息和全基因组比对,从而在“省空间”的同时保留关键生物学信息。

  PanMAN由一组“突变标注树”组成。每棵树以一个祖先基因组为根节点,在不同分支上记录替换、插入和缺失等突变。多棵树再通过网络结构连接,用于表达重组和水平基因转移等复杂遗传事件。由于每一次突变只在其发生的分支上存储一次,而不是在每个基因组中重复记录,这种表示方式能够充分利用共同祖先关系实现高效压缩。

  团队已将该方法应用于微生物基因组分析,并构建了目前规模最大的新冠病毒泛基因组,覆盖超过800万个病毒基因组。采用PanMAN表示后,这些数据仅需366MB的存储空间,约为对应的全基因组比对所需空间的1/3000。

  团队指出,如果将该方法扩展到人类基因组,将有望显著改变大规模遗传数据的存储、共享和分析方式,并为研究人类群体的遗传多样性、疾病机制和进化历史提供更高分辨率的工具。

 
 
 
推荐阅读
 
全新的数据结构能够压缩整合上亿基因组
成都中医药大学举办教师全英文授课大赛
林子祥叶蒨文世界巡演澳门站官宣定期
保险代理人报告发布 泰康人寿成为研究案例
 
· 白矮星周围发现来历不明彩色冲击波
· 成都市青少年篮球菁英联赛启动报名
· 第二届耙耙柑大会将在蒲江县举行
· 全球商业地产回暖转型机遇显现
 
热门点击
  1. 科研人员在高温超导研究领域取得新进展
  2. 最新研究显示月球年龄比原来更老
  3. 谷歌透露下一个野心是构建健康人体地图
  4. 美敦力与先健科技扩大战略合作
  5. 高科技掌控生活 装上千里眼家里宝宝活动
  6. 四川律贝生物攻坚克难长薄鳅繁殖再创佳
  7. 四川省三项档案课题获国家立项
  8. 四川增强自主创新驱动升级  
  9. 院士创新工作站落户成都清科
  10. 易观智库发布中国搜索引擎报告
 
关于我们 - 联系我们 - 郑重声明 - 广告刊列

人力资源报@ 版权所有 未经书面授权 不得复制或建立镜像
蜀ICP备12029325号-1