19日从中国科学院植物研究所获悉,该所焦远年研究团队最新研究开拓出一种不依赖参考基因组的组装质量评估新工具CRAQ(Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并供应干系纠错方案。这一基因组研究领域的主要成果论文,近日在国际学术期刊《自然-通讯》上线揭橥。
CRAQ工具的整体流程示意图。中国科学院植物所 供图
论文通讯作者焦远年研究员指出,高质量的参考基因组序列对付基因注释和干系功能研究至关主要,也是大规模比较基因组学和表不雅观遗传调控研究的主要条件。不过,目前多数基因组序列中仍旧存在一些组装缺点,给干系研究带来一定程度影响。而精准区分和鉴定高质量与低质量的基因组序列,不仅可以为基因组组装质量供应评估依据和进一步改进供应靶点,也可以为后期比较基因组和功能研究位点供应基因组序列质量认证。当前,虽然已有一些基因组组装质量评估的方法和指标,但其大多仅供应一个总体的评估值,没有针对特定区域或碱基的评估信息。

针对这一问题,该研究团队研发的CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效“剪切对齐”信息,可精准地检测基因组中存在的组装缺点。结合长读长测序片段和短读长测序片段与基因组比对的特色,CRAQ可以识别基因组内小规模的区域组装缺点和大范围的构造组装缺点,不同类别的缺点数量经由统计和标准化处理后被转化为两个组装质量评估指标,以反响不同层面的基因组组装质量。
CRAQ检测并纠正组装嵌合片段示例。中国科学院植物所 供图
同时,CRAQ能够将组装缺点与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在缺点断点的位置。在此根本上,CRAQ能帮助研究职员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获技能进一步构建构造更加准确的参考基因组。
据研究团队先容,为对CRAQ进行性能测试和评估,他们以人类参考基因组组装为根本构建一个仿照数据集并利用CRAQ和目前广泛利用的基因组质量评估工具进行测试和比较,结果表明,当缺少完美参考基因组时,CRAQ表现最佳,并在检测杂合区域方面也表现出超过95%的召回率和精确度。研究团队还通过对一个真实的果蝇杂交的基因组数据集进行剖析,创造CRAQ可以准确地将组装缺点和杂合区域区分开来,而其他工具则无法检测出杂合区域。(完)