免费论文查重: 大雅 万方 维普 turnitin paperpass

分析群落基于BIPES微生物群落生物信息学策略建立

最后更新时间:2024-01-16 作者:用户投稿原创标记本站原创 点赞:12392 浏览:48016
论文导读:多数量的样品。对微生物群落结构探讨策略而言,“准确”一方面指微生物种属(或称分类单元)的表征信息要尽可能明确;另一方面,对不同分类单元的定量要尽可能准确。但是,传统技术如DGGE、基因芯片等手段均不能在较低的成本下,实现高通量和准确的需求。近年来,通过454测序技术测定16SrRNA短标签序列成为微生物群落探讨领域的突破
摘要:微生物以群落形式广泛有着,它与众多探讨领域密切相关。在医学领域,人体共生菌群被称为人的“第二基因组”(The other genome),与健康密切相关;在环境领域,微生物以群落形式发挥功能,驱动生命基本元素(C/N/S等)发生生物地球化学循环,分解各种污染物;在生态学领域本身,有着更多与微生物群落结构以及其动态变化相关的内容;此外,与微生物群落相关的探讨领域还包括工业与资源微生物、农业与土壤微生物等。欲解答与微生物群落相关的科学不足,首先必须清晰准确地浅析微生物群落结构,即样品中有着的微生物种类,以及各种类的数量。但是,在传统的微生物群落浅析策略中,“通量”、“准确性”、以及“成本”三大因素的制约使得微生物群落的测定成为多学科瓶颈技术。“高通量”是指,针对单个样品,需获得高通量的数据;同时,采取该策略浅析样品的通量要够高,即能够同时浅析较多数量的样品。对微生物群落结构探讨策略而言,“准确”一方面指微生物种属(或称分类单元)的表征信息要尽可能明确;另一方面,对不同分类单元的定量要尽可能准确。但是,传统技术如DGGE、基因芯片等手段均不能在较低的成本下,实现高通量和准确的需求。近年来,通过454测序技术测定16S rRNA短标签序列成为微生物群落探讨领域的突破。它利用焦磷酸测序法获得高通量的数据及相关生物信息学工具的交互进展促成微生物群落结构探讨策略学的突破。但是,454测定16S rRNA标签技术因成本较高,阻碍其普及运用,同时测序错误及生物信息学计算工具也还有着一些不足。与454技术相比,Illumina平台能够提供更多的序列数量,以而显著提升样品浅析通量,降低浅析成本,并且序列准确性更高。但是,Illumina的测序特点是序列长度较短,过去不能达到测定16S rRNA可变区的需求。同时,由于Illumina平台所获得的序列数量成数十倍增加,原有的生物信息学浅析工具均不能运用,如何解决其中的运算瓶颈也是制约Illumina浅析微生物群落的关键之处。本论文首先验证了通过条码引物扩增16S rRNA可变区,对PCR产物整体进行Illumina双末端测序,进而通过序列分拣、拼接、质控、比对等生物信息学浅析,获得目标样品中的微生物群落代表序列的新策略。该策略称为Barcoded Illumina Paired End Sequencing,简称BIPES。本探讨中,我们首次通过IlluminaPE75以及PE101测序技术(随着测序技术的进展),测通16S rRNA的V6可变区,并建立一系列质控算法,比较不同浅析流程的准确性。结果发现,Illumina单末端序列的准确度仅为约97.9%,其分布特点为以序列开始5'端的99.9%到末端3'端的85%。在双末端序列的反向互补拼接历程中,质量下降的3'端序列得到校正,以而将测序准确度显著增加到99.65%。进而通过去除40-70bp位点有2个或以上的错配碱基,和引物区有错误的序列之后,BIPES序列的准确性进一步提升到99.93%。其中错误碱基比454法降低了1个数量级。本论文发现,BIPES序列能够基本反映初始模板中各序列的相对量,但是长序列和高GC含量的序列会被低估,表明PCR对群落浅析还具有较为显著的影响。在16S rRNA V6序列的测序中,BIPES策略单个run测得的序列数是焦磷酸测序的20-50倍,通量高;而且每条BIPES序列的成本不到一条焦磷酸序列的1/40,成本低;同时,BIPES以获得的16S rRN6可变区作为分类单元的特点,可进一步做系统分类和比较,准确性较好。作为一个高性价比策略,BIPES可以被广泛用于环境和人微生物组的微生物群落结构探讨。在获得大量的序列后,为了进一步浅析序列所代表的群落结构,进而进行α和p多样性比较,需进行大量的生物信息学浅析。其中第一步需要将序列进行比对,进而将一定相似度的序列聚类成可操作分类单元(OTU),该步骤是浅析微生物多样性生物信息学的关键步骤。本探讨建立了一种新的两阶段聚类(Two-stage-clustering, TSC)策略,能够降低运算资源的需求,并且具有很好的准确性。TSC根据丰度将序列分成两组之后分别聚类。由于微生物群落本身的分布特点以及高通量测序错误发生的特点,造成测序结果中高频数序列少,而低频数序列多。我们对高论文导读:析一组抗生素数据以展示BIPES浅析的完整流程,在本组数据浅析中,BIPES的质控作用可剔除7-22%的低质序列。α多样性浅析结果显示day0样品的微生物多样性最丰度,而且day3-7样品多样性高于day14-21。β多性浅析结果显示时间和抗生素浓度是影响微生物群落结构的主要因素。本论文建立了通过Illumina测序,浅析微生物群落多样性的浅析
丰度组采取严谨的分层聚类算法(hierarchical)聚类,该算法准确性高,但其运算随序列数量成几何技术增加。而我们的TSC算法有效制约了分层聚类比对序列的数量。其后,我们对包含大部分稀有序列的低频数组采取贪婪的启发式法(greedy heuristic)聚类以提升效能。其中全部的比对均基于准确性最高的全局比对算法(Needleman-Wunsch算法),以获得准确的OTU聚类。为进一步提升计算效能和准确度,TSC采取了两步不同的预聚类。Clone43_97up数据浅析结果显示TSC能准确的聚类已知数据,得到43个OTU。通过浅析一组序列数约为11万的真实数据Costello day3,结果显示TSC只需消耗370s和185M的内存即可完成聚类历程,除UCLUST外,其它策略所需的时间和内存分别是TSC的10倍以上和5倍以上。本探讨发现,将序列分成两组之后再聚类不仅提升了计算效能,而且减少由“噪音”序列组成的不合理OTU,这种OTU的特点是低丰度序列可连接高丰度序列,即ARA(abundant-rare-abundant),经深入浅析发现,TSC三种算法聚类所得的OTU中不有着ARA,而ARA在其它策略中的比例分别是:SLP4.2%、UCLUST3.0%、 Mothur CL2%、Mothur AL2.3%、Mothur SL45.5%、ESPRIT-SL22%。稀疏曲线浅析结果显示TSC所得曲线比UCLUST和采取AL的算法更低更平缓。另外,经DCA和PCoA浅析不同策略聚类Costello数据所得OTU对数据结构比较的影响,结果显示TSC、UCLUST和ESPRIT-AL均能良好的把口腔、肠道样品分开。同时,一组未发表的数据的浅析结果显示TSC能显示地点和温度是影响样品群落的两个因素,而UCLUST只能提示温度是唯一的影响因素。这两组数据的浅析结果说明,一般情况下,TSC和UCLUST得到相似的beta多样性比较结果,但是有时候TSC策略得到的beta多样性比较效果要比UCLUST要略微好一些。本探讨认为在PCR扩增子的高通量测序的浅析中,测序数据的分布特点是提升计算效能和准确度的一个非常有用的要素。最后,我们用本策略浅析一组抗生素数据以展示BIPES浅析的完整流程,在本组数据浅析中,BIPES的质控作用可剔除7-22%的低质序列。α多样性浅析结果显示day0样品的微生物多样性最丰度,而且day3-7样品多样性高于day14-21。β多性浅析结果显示时间和抗生素浓度是影响微生物群落结构的主要因素。本论文建立了通过Illumina测序,浅析微生物群落多样性的浅析流程。我们建立了BIPES技术,可以获得高质量的V6序列,我们开发了TSC算法,可以运算百万数量水平的序列,获得准确的聚类结果。同时,该聚类序列数据可通过GAST,RDP等工具进一步进行系统分类,获得样品中的微生物种类,以及各种类的相对数量。根据聚类结果,可以对不同样品进行alpha和beta多样性比较,并可进一步进行统计,发现样品的特点微生物群落,为微生物组生物学探讨奠定生物信息学浅析基础。关键词:微生物论文群落结构论文BIPES论文生物信息学策略论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要3-7
ABSTRACT7-14
第一章 绪论14-21

1.1 微生物群落的探讨进展14-16

1.2 探讨微生物群落结构的分子生物学技术16-20

1.3 Illumina测序运用于微生物群落浅析有着的不足20-21

第二章 BIPES策略的建立21-44

2.1 引言21-22

2.2 材料与策略22-30

2.1 材料22-24

2.2 策略24-30

2.3 结果30-40

2.3.1 Illumina的测序准确度30-35

2.3.2 双末端序列的拼接35-38

2.3.3 量化结果38-40

2.4 讨论40-44

第三章 Two-Stage Clustering(TSC)两阶段聚类44-68

3.1 引言44-46

3.

1.1 本探讨涉及的几个基本概念45-46

3.

1.2 本探讨所用缩写46

3.2 策略46-50
3.2.1论文导读:多样性浅析70-714.4Beta多样性浅析71-74总结74-75参考文献75-80成果80-81附录81-86致谢86-88统计学证明88上一页123
TSC算法46-49

3.

2.2 计算环境49-50

3 结果和讨论50-68

3.1 TSC与经典策略之间的比较50-52

3.2 用TSC来估计人工数据库中OTU的数目52-54

3.3 TSC可有效的减少计算时间和最大内存需求54-55

3.3.4 TSC中随着cutoff值的增加而出现CL/AL/SL聚类结果趋同55-59

3.5 TSC可高效的将100万的序列聚类59-61

3.6 ARA的检测61-64

3.7 Rarefaction curves64-65

3.8 TSC有相似或更好的beta多样性比较结果65-68

第四章 实例68-74

4.1 数据介绍68

4.2 BIPES质控浅析历程中各步骤序列数统计68-70

4.3 Alpha多样性浅析70-71

4.4 Beta多样性浅析71-74

总结74-75
参考文献75-80
成果80-81
附录81-86
致谢86-88
统计学证明88