利用TruSPADES方法显著改善宏基因组测序

2016-02-18 绿谷生物 Nat Methods
浏览

在一项新的研究中,来自俄罗斯圣彼得堡国立大学的研究人员开发出一种方法极大地改善人们对实验室中不能培养的有机体---如生活在人胃肠道中的微生物,或者生活在海洋深处的细菌---的DNA进行测序的能力。相关研究结果于2016年2月1日在线发表在Nature Methods期刊上,论文标题为“TruSPAdes: barcode assembly of TruSeq synthetic long reads”。

这种被称作TruSPADES的方法通过计算机将来自Illumina公司的机器产生的长300个碱基对的短测序片段(short reads)组装成所谓的合成长测序片段(synthetic long reads),这些合成长测序片段是基因组中长大约10,000个碱基对的片段。

研究人员说,使用这些合成长测序片段而不是短测序片段组装基因组就好比是使用整个章节而不是单个句子来组装一本书。因此,人们有强烈的动机利用长测序片段改进测序。

论文作者Pavel Pevzner教授说,“这是下一代测序技术。它将对宏基因组测序的操作应用产生深刻影响。”

当前,作为长测序片段测序市场的佼佼者,Pacific Biosciences公司和Oxford Nanopore公司产生的长测序片段是不准确的,而且很难用于解决复杂的测序问题,如组装宏基因组(metagenome),其中宏基因组可以指的是从自然环境取样的全部微生物的基因组,也可以指的是从自然环境取样的全部微生物。相比之下,这种合成长测序片段的准确性提高了100倍,而且能够大规模地快速产生从而覆盖宏基因组中的大部分细菌。

为了开发这种新的方法,研究人员获取携带条形码的长100~300个碱基对的短测序片段。他们然后利用一种在短测序片段测序(short read sequencing)中经常使用的被称作德布鲁因图(de Brujin graph)的方法描绘这些短测序片段,将它们组装成合成长测序片段。这种德布鲁因图允许研究人员确定哪些短测序片段连接在一起,从而组装出更长更准确的合成长测序片段。

接下来就是应用这种方法研究包括从人微生物组到海洋微生物组在内的多种微生物群落。Pevzner和另一名论文作者Anton Bankevich正在与来自美国克雷格文特尔研究所(J. Craig Venter Institute)的研究员Christopher Dupont合作开展这方面的研究工作。

宏基因组学特别充满挑战,这是因为研究人员需要研究生活在一个微生物群落中的好几百种细菌,而不能研究其中的单个细菌菌种。当研究人员从这种微生物群落中提取样品并进行测序时,他们获得的是来自这个群落中所有细菌基因组的片段。这非常像是试图拼出好几百个拼图,但是并不知道哪些拼板属于哪个拼图。TruSPADES方法和合成长测序片段将有助研究人员拼出这些拼图。

Dupont 说,“这种方法以更小的成本产生更好的结果。我们如今正在组装我们之前甚至还不知道它们存在的有机体的基因组。”

doi:10.1038/nmeth.3737

TruSPAdes: barcode assembly of TruSeq synthetic long reads

Anton Bankevich & Pavel A Pevzner

The recently introduced TruSeq synthetic long read (TSLR) technology generates long and accurate virtual reads from an assembly of barcoded pools of short reads. The TSLR method provides an attractive alternative to existing sequencing platforms that generate long but inaccurate reads. We describe the truSPAdes algorithm (http://bioinf.spbau.ru/spades) for TSLR assembly and show that it results in a dramatic improvement in the quality of metagenomics assemblies.