16S信息分析报告2北京奥维森.docx
- 文档编号:3813177
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:22
- 大小:1.34MB
16S信息分析报告2北京奥维森.docx
《16S信息分析报告2北京奥维森.docx》由会员分享,可在线阅读,更多相关《16S信息分析报告2北京奥维森.docx(22页珍藏版)》请在冰点文库上搜索。
16S信息分析报告2北京奥维森
16srDNA信息分析
1.标准信息分析(初级)
1.1基本数据处理(使用内部撰写的程序对原始的测序数据进行基本处理)
通过Illumina平台(Miseq)进行Paired-end测序,下机数据经过去除低质量reads(Q20,90%标准过滤),并trim掉reads2尾部100bp低质量序列;每个样品数据产出详细统计结果见下表:
表1-1reads数据统计:
#Samples
#HQreads(total)
#HQreads(mean±SD)
CA
17
110,651
6,509±2,175
HC
19
163,690
8,615±3,081
LK
13
127,416
9,801±2,858
Total
49
401,757
8,199±2,992
注:
原来的样本中CA15由于原始Reads数太少(只有23条)而被删除,因此目前的样本总数为49个
1.2去除barcode序列,引物序列及tags过滤
通过COPE软件(ConnectingOverlappedPair-End,V1.2.3.3),利用重叠关系将双末端测序得到的成对reads组装成一条序列。
利用内部编写程序去除两端barcode序列,引物序列。
PairedEndReads通过reads之间的overlap(19个碱基)关系拼接成Tags;然后去掉barcode序列,引物序列。
为了得到高质量的Tags,将拼接的Tags按照长度过滤,去嵌合体等的处理。
(这里等的意思就是按照拼接条件过滤:
1,碱基的ASCIIvalue值低于33的过滤掉。
2.overlap取19个碱基,这19个碱基相互匹配率低于98%的过滤掉。
3.去掉引物序列的时候,允许一个错配,错配多于一个的过滤掉。
)
表1-2tags的详细信息
SampleID
RawTagNum
FinalTagnum
HC1
17560
17,319
HC2
9672
9,604
HC3
18053
17,826
HC4
12181
12,107
HC5
11558
11,477
HC8
11488
11,404
HC9
16354
16,095
HC10
21584
21,270
HC11
7989
7926
HC12
11561
11,449
HC13
24909
24,660
HC14
22979
22,736
HC15
20747
20,549
HC16
14857
14,728
HC17
21171
21,002
HC18
10700
10,605
HC19
11359
11,247
CA8
16203
16,040
CA10
10925
10,560
CA11
8254
7,690
CA12
9479
9,053
CA14
7947
7,584
CA16
8221
8,093
CA17
10666
10,479
CA18
10787
10,651
CA5
16344
16,154
CA9
6047
5,861
CA13
10290
10,165
2高级信息分析
2.1OUT及其丰度分析
2.1.1OUT统计
拼接的Tags经过优化后,在0.97相似度下利用qiime(v1.8.0)软件将其聚类为用于物种分类的OTU(OperationalTaxonomicUnits),统计各个样品每个OTU中的丰度信息,OTU的丰度初步说明了样品的物种丰富程度。
49个样品共产生3029个OTU,其中SingletonsOTU(即丰度为1的OTU)个数为0,NonsingletonsOTU个数为3029。
表4.样品OUT统计
SampleName
OTUs
Tags
HC1
541
17,319
HC2
269
9,604
HC3
530
17,826
HC4
215
12,107
HC5
206
11,477
HC8
214
11,404
HC9
455
16,095
HC10
600
21,270
HC12
262
11,449
HC13
294
24,660
CA10
453
10,560
CA11
710
7,690
CA12
650
9,053
CA14
519
7,584
CA16
240
8,093
CA17
330
10,479
CA18
289
10,651
CA5
336
16,154
CA9
347
5,861
HC11
142
7,926
CA13
269
10,165
表5OTU统计
Index
OTUnum
No.ofOTUs
3029
Assignedtofamilies
1,708
Assignedtogenera
1,172
Assignedtospecies
314
No.ofOTUspersample
368±147
Minno.ofOTUspersample
127
Maxno.ofOTUspersample
719
2.1.2OTU分布的韦恩图如下:
在0.97的相似度下,得到了每个样品的OTU个数,利用R(v3.1.1)画图软件绘出Venn图可以展示多样品共有和各自特有OTU数目,直观展示样品间OTU的重叠情况。
结合OTU所代表的物种,可以找出不同环境中的核心微生物。
图2-1OTUvenn分析。
不同颜色图形代表不同样品或者不同组别,不同颜色图形之间交叠部分数字为两个样品或两个组别之间共有的OTU个数。
同理,多个颜色图形之间交叠部分数字为多个样品或组别之间共有OTU个数。
Venn图容许2-5个样品或组别。
2.1.3OUT水平的PCA图如下:
R(v3.1.1)画图软件
PCA分析(PrincipalComponentAnalysis),即主成分分析,是一种分析和简化数据集的技术。
主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
通过分析不同样品OTU(97%相似性)组成可以反映样品的差异和距离,PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值两个特征值。
如果两个样品距离越近,则表示这两个样品的组成越相似。
不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似性。
图2-2基于OTU丰度的PCA分析。
横坐标表示第一主成分,括号中的百分比则表示第一主成分对样品差异的贡献值;纵坐标表示第二主成分,括号中的百分比表示第二主成分对样品差异的贡献值。
图中点分别表示各个样品。
不同颜色代表样品属于不同的分组。
2.2Coremicrobiome分析
图表都是通过qiime(v1.8.0)软件得到的
共有OTU数与样本数的关系:
图2-3覆盖所有样本的微生物组。
横坐标表示样品占的比率,纵坐标表示包含OUT的数目。
这些样本的coremicrobiome(即覆盖所有样本的微生物组)共包含17个OTUs,其物种分类信息如下表2-1。
表2-1覆盖所有样本的OTUs
OTU
Taxonomylevel
Taxonomyname
400850
Genus
Streptococcus
437590
Genus
Capnocytophaga
368428
Species
dispar
645710
Genus
Campylobacter
417699
Genus
Fusobacterium
395972
Genus
Streptococcus
381841
Genus
Streptococcus
140702
Genus
Peptostreptococcus
413823
Genus
Granulicatella
645697
Genus
Campylobacter
414306
Genus
Neisseria
260777
Genus
Fusobacterium
2008
Genus
Neisseria
21908
Genus
Neisseria
645708
Genus
Campylobacter
414422
Family
Gemellaceae
1212
Genus
Granulicatella
2.3生物多样性分析
2.3.1单个样品复杂性分析
通过计算Shannonindex,Chao1index,Phylogeneticdiversity(PD,wholetree)和observednumberofspecies共四个指数来进行生物多样性分析。
通过qiime(v1.8.0)软件计算样品的Alpha多样性值并用R(v3.1.1)软件做出相应的稀释曲线,盒型图。
稀释曲线是利用已测得16SrDNA序列中已知的各种OTU的相对比例,来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的Alpha指数的期望值绘制曲线。
如样品有提供分组信息,且每组样品个数不小于3,将对组间的Alpha多样性指数进行差异分析。
差异分析的检验方法为秩和检验,如果组数为2,采用两样品比较的WilcoxonRank-SumTest(R中的wilcox.test);如果组数大于2,采用多样品比较的Kruskal-WallisTest(R中的kruskal.test)。
最后利用Alpha多样性指数绘制盒形图。
差异分析与作图均通过R软件(v3.1.1)进行。
基于OTU的结果,我们计算了样品的Alpha多样性(表2-2)。
Alpha多样性是对单个样品中物种多样性的分析。
chao1多样性估算指数是根据所测得的tags数和OTU的数量以及相对比例来预测样品中微生物的种类(OTU的数量),,是基于已知结果所得相对值。
Shannon指数是一个综合OTU丰度和OTU均匀度两方面因素的一个多样性指数,Shannon及observednumberofspecies、Phylogeneticdiversity(PD,wholetree)指数越大,则表示该样品中的物种越丰富。
表2-2样品的Alpha多样性
#Alpha
mean(CA)
mean(HC)
mean(LK)
Pvalue(KW)
p-vaule(CA-HC)
p-vaule(CA-LK)
p-vaule(HC-LK)
chao1
488.2993557
357.6225984
422.543311
0.1030342
0.04870866
0.359368
0.2476438
observed_species
243.0764706
161.2631579
199.5461538
0.02140905
0.01542679
0.2116511
0.09132691
PD_whole_tree
16.48889235
13.16604611
15.23295877
0.03785742
0.01674553
0.3858799
0.06422109
shannon
3.778127013
2.99788623
3.404163586
0.00392627
0.01131079
0.2167059
0.02426458
Rarefaction分析(样本不分组):
图2-4单个样品内的Alpha多样性
Rarefaction分析(样本分组):
图2-5每组样品内的Alpha多样性。
图中红色,黄色,蓝色线分别表示CA,HC,LK组的rarefaction分析结果
图2-6为组Alpha多样性盒形图,更直观显示组间Alpha多样性差异。
盒形图可以显示5个统计量(最小值,第一个四分位数,中位数,第三个中位数和最大值,及由下到上的5条线),异常值以“º”标出。
Alpha多样性的比较,以Shannonindex为例可以看出多样性CA>LK>HC,其中CA/HC有明显差异(P=0.008,Student’sttest),而CA/LK,HC/LK差异不显著
2.3.2样品间复杂度比较分析
Beta多样性(Betadiversity)分析是用来比较一对样品在物种多样性方面存在的差异大小。
本分析中通过QIIME(v1.8.0)软件,采用迭代算法,分别在加权物种分类丰度信息和不加权物种分类丰度信息的情况下,随机抽取各样品中75%Reads单独进行差异计算,迭代100次之后综合统计得到最终的统计分析结果表及PCoA展示图。
Beta多样性热图使用R(v3.1.1)软件中的NMF包的aheatmap进行作图。
UniFrac是通过利用系统进化的信息来比较样品间的物种群落差异。
其计算结果可以作为一种衡量betadiversity的指数,它考虑了物种间的进化距离,该指数越大表示样品间的差异越大。
报告中给出的UniFrac结果分为加权UniFrac(weightedUniFrac)与非加权UniFirac(unweightedUniFrac)2种,其中weightedUniFrac考虑了序列的丰度,unweightedUniFrac不考虑序列丰度。
从下面盒形图看,CA组内的物种丰度最大。
WeightedUnifrac
图2-7Beta多样性的盒形图
UnweightedUnifrac
Unifrac距离的主坐标分析(PCoA)如下:
WeightedUnifrac
UnweightedUnifrac
图2-8Beta多样性的主坐标分析(PCoA)图。
如果两个样品距离越近,则表示这两个样品的组成越相似。
不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似性。
图2-9UniFrac距离分布heatmap。
通过对UniFrac结果的聚类,具有相似beta多样性的样品聚类在一起,反应了样品间的相似性。
2.3.3物种组成分析
本分析中分组后各水平的分类比较柱形图是用QIIME(v1.8.0)软件得到的,单个样品的群落分布柱形图和盒型图是根据QIIME(v1.8.0)软件计算的结果用R(v3.1.1)软件画的。
样品的群落分布图,直观的反应各样品的群落组成。
从门水平的群落分布图中可以看出,在这批样品中,占主要地位的门有Firmicutes,Proteobacteria。
2.3.3.1门(phylum)水平比较
图2-10分组后门水平的分类比较。
从左至右分别为CA,HC,LK的物种组成。
图2-11样品的门水平群落分布图
2.3.3.2纲(class)水平比较
图2-12分组后纲水平的分类比较。
从左至右分别为CA,HC,LK的物种组成。
图2-13样品的纲水平群落分布图
2.3.3.3属(genus)水平比较
图2-14样品的属水平群落分布图
含量最高的25个属的物种组成如下:
可以看出,这些样本中含量最高的属为Streptococcus,Neisseria,Neisseriaceae(family),Campylobacter,Bacillus,Gemellaceae,TM7-3
2.3.4多组样本的比较分析
下面的表格都是通过QIIME(v1.8.0)软件计算出的,热图是用R(v3.1.1)软件画的。
2.3.4.1.1OTU水平的比较分析
下表是在不同组样本间有显著差异的OTUs(P<0.05,Kruskal-Wallistest),共35个
OTU
Pvalue
CA_mean
HC_mean
LK_mean
Lineage
1082539
0.0042433
0.3096088
0.4614955
0.3054158
s_Streptococcus_infantis
1034052
0.0114896
1.334E-05
9.02E-05
3.309E-05
s_Streptococcus_infantis
CU.OTU3609
0.046838
0.0007717
4.302E-05
7.37E-05
s_Streptococcus_infantis
CU.OTU3951
0.0487232
0.0009347
0.0001798
0.0004562
s_Streptococcus_infantis
561537
0.0046056
4.506E-05
2.515E-05
0.0001385
s_Selenomonas_noxia
2714267
0.0022015
0.0002441
2.728E-05
3.53E-05
s_Prevotella_tannerae
968675
0.000991
0.0014583
0.0021067
0.0067938
s_Haemophiluspara_influenzae
168817
0.0058028
4.681E-05
7.871E-05
0.0002216
s_Capnocytophaga_ochracea
CU.OTU1512
0.0188676
0.000171
5.314E-05
4.729E-05
s_Campylobacter_rectus
CU.OTU4248
0.0263048
3.144E-05
3.67E-05
0.0001205
s_Actinobacillus_porcinus
CU.OTU4669
0.0129222
0.0003367
0
0.0006268
o_Lactobacillales
CU.OTU2884
0.0208585
0.0003042
0.0002567
0.000887
o_Gemellales
931950
0.0299847
0.000336
0.000588
0.0003561
g_Streptococcus
4320317
0.0406687
1.213E-05
7.16E-05
0.0001015
g_Streptococcus
4416763
0.0266763
0.0004081
2.432E-05
4.272E-05
g_Streptococcus
269907
0.0192365
0.0029649
0.0002695
0.000376
g_Prevotella
324532
0.0471365
0.0002089
2.607E-05
5.232E-05
g_Leptotrichia
4305791
0.0030921
0
8.912E-05
0.0002187
g_Cardiobacterium
4294954
0.020554
0.0005766
0.0004379
0.001282
g_Capnocytophaga
1010329
0.0395095
0.0002372
7.529E-05
0.0001302
g_Capnocytophaga
1098655
0.0210558
0.0128739
0
0.1271655
g_Bacillus
OTU19
0.027243
0.0011444
0.0037378
0.0004883
g_Abiotrophia
4321136
0.037865
0.0003906
0.0034499
0.0012684
f_Streptococcaceae
CU.OTU4437
0.0176678
6.529E-05
5.103E-06
0.000202
f_Streptococcaceae
OTU2
0.0041811
4.005E-05
9.346E-06
0.0001607
f_Pasteurellaceae
CU.OTU3881
0.0338498
0.0002141
6.821E-05
0.0004476
f_Neisseriaceae
CU.OTU2027
0.0419597
0.0001243
8.193E-05
0.0002474
f_Neisseriaceae
1101669
0.0395957
0.0189474
0.0406776
0.01988
f_Gemellaceae
CU.OTU160
0.0270141
0.0001768
8.61E-06
3.201E-05
f_Clostridiaceae
851704
0.0304967
0.0081987
0.0006575
0.0014748
f_Clostridiaceae
1090059
6.38E-05
6.461E-05
8.711E-05
0.0003815
f_Carnobacteriaceae
949789
0.0037186
0.0012651
0.0020851
0.003773
f_Carnobacteriaceae
1065974
0.0121445
0.002405
0.0045651
0.0070174
f_Carnobacteriaceae
OTU10
0.0234181
0.0001868
0
0.001004
c_Bacilli
CU.OTU31
0.0286421
0.0004367
2.232E-05
3.781E-05
p_Firmicutes
2.3.4.2属水平的比较分析
首先,PCA分析能够看出3组样本之间有一定程度的差异:
其次,通过Kruskal-Wallistest分析可以找出在不同组间有明显差异(P<0.05)的属如下(共19个属或科):
CA_mean
HC_mean
LK_mean
Pvalue
g_Streptococcus
0.4330046
0.6081675
0.3946644
0.001482408
g_Campylobacter
0.06485841
0.02935462
0.03472514
0.03853575
g_Bacillus
0.01297139
0
0.1279523
6.82332E-05
f_Gemellaceae
0.0235978
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 16 信息 分析 报告 北京 奥维森