书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 16S信息分析报告2北京奥维森.docx

16S信息分析报告2北京奥维森.docx

文档编号：3813177
上传时间：2023-05-06
格式：DOCX
页数：22
大小：1.34MB

《16S信息分析报告2北京奥维森.docx》由会员分享，可在线阅读，更多相关《16S信息分析报告2北京奥维森.docx（22页珍藏版）》请在冰点文库上搜索。

16S信息分析报告2北京奥维森.docx

16S信息分析报告2北京奥维森

16srDNA信息分析

1.标准信息分析（初级）

1.1基本数据处理（使用内部撰写的程序对原始的测序数据进行基本处理）

通过Illumina平台（Miseq）进行Paired-end测序，下机数据经过去除低质量reads（Q20,90%标准过滤），并trim掉reads2尾部100bp低质量序列；每个样品数据产出详细统计结果见下表：

表1-1reads数据统计：

#Samples

#HQreads（total）

#HQreads（mean±SD）

CA

17

110,651

6,509±2,175

HC

19

163,690

8,615±3,081

LK

13

127,416

9,801±2,858

Total

49

401,757

8,199±2,992

注：

原来的样本中CA15由于原始Reads数太少（只有23条）而被删除，因此目前的样本总数为49个

1.2去除barcode序列，引物序列及tags过滤

通过COPE软件（ConnectingOverlappedPair-End，V1.2.3.3），利用重叠关系将双末端测序得到的成对reads组装成一条序列。

利用内部编写程序去除两端barcode序列，引物序列。

PairedEndReads通过reads之间的overlap（19个碱基）关系拼接成Tags；然后去掉barcode序列，引物序列。

为了得到高质量的Tags，将拼接的Tags按照长度过滤，去嵌合体等的处理。

（这里等的意思就是按照拼接条件过滤:

1,碱基的ASCIIvalue值低于33的过滤掉。

2.overlap取19个碱基，这19个碱基相互匹配率低于98%的过滤掉。

3.去掉引物序列的时候，允许一个错配，错配多于一个的过滤掉。

）

表1-2tags的详细信息

SampleID

RawTagNum

FinalTagnum

HC1

17560

17,319

HC2

9672

9,604

HC3

18053

17,826

HC4

12181

12,107

HC5

11558

11,477

HC8

11488

11,404

HC9

16354

16,095

HC10

21584

21,270

HC11

7989

7926

HC12

11561

11,449

HC13

24909

24,660

HC14

22979

22,736

HC15

20747

20,549

HC16

14857

14,728

HC17

21171

21,002

HC18

10700

10,605

HC19

11359

11,247

CA8

16203

16,040

CA10

10925

10,560

CA11

8254

7,690

CA12

9479

9,053

CA14

7947

7,584

CA16

8221

8,093

CA17

10666

10,479

CA18

10787

10,651

CA5

16344

16,154

CA9

6047

5,861

CA13

10290

10,165

2高级信息分析

2.1OUT及其丰度分析

2.1.1OUT统计

拼接的Tags经过优化后，在0.97相似度下利用qiime（v1.8.0）软件将其聚类为用于物种分类的OTU（OperationalTaxonomicUnits），统计各个样品每个OTU中的丰度信息，OTU的丰度初步说明了样品的物种丰富程度。

49个样品共产生3029个OTU，其中SingletonsOTU（即丰度为1的OTU）个数为0，NonsingletonsOTU个数为3029。

表4.样品OUT统计

SampleName

OTUs

Tags

HC1

541

17,319

HC2

269

9,604

HC3

530

17,826

HC4

215

12,107

HC5

206

11,477

HC8

214

11,404

HC9

455

16,095

HC10

600

21,270

HC12

262

11,449

HC13

294

24,660

CA10

453

10,560

CA11

710

7,690

CA12

650

9,053

CA14

519

7,584

CA16

240

8,093

CA17

330

10,479

CA18

289

10,651

CA5

336

16,154

CA9

347

5,861

HC11

142

7,926

CA13

269

10,165

表5OTU统计

Index

OTUnum

No.ofOTUs

3029

Assignedtofamilies

1,708

Assignedtogenera

1,172

Assignedtospecies

314

No.ofOTUspersample

368±147

Minno.ofOTUspersample

127

Maxno.ofOTUspersample

719

2.1.2OTU分布的韦恩图如下：

在0.97的相似度下，得到了每个样品的OTU个数，利用R（v3.1.1）画图软件绘出Venn图可以展示多样品共有和各自特有OTU数目，直观展示样品间OTU的重叠情况。

结合OTU所代表的物种，可以找出不同环境中的核心微生物。

图2-1OTUvenn分析。

不同颜色图形代表不同样品或者不同组别，不同颜色图形之间交叠部分数字为两个样品或两个组别之间共有的OTU个数。

同理，多个颜色图形之间交叠部分数字为多个样品或组别之间共有OTU个数。

Venn图容许2-5个样品或组别。

2.1.3OUT水平的PCA图如下：

R（v3.1.1）画图软件

PCA分析（PrincipalComponentAnalysis），即主成分分析，是一种分析和简化数据集的技术。

主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

通过分析不同样品OTU（97%相似性）组成可以反映样品的差异和距离，PCA运用方差分解，将多组数据的差异反映在二维坐标图上，坐标轴取能够最大反映方差值两个特征值。

如果两个样品距离越近，则表示这两个样品的组成越相似。

不同处理或不同环境间的样品可能表现出分散和聚集的分布情况，从而可以判断相同条件的样品组成是否具有相似性。

图2-2基于OTU丰度的PCA分析。

横坐标表示第一主成分，括号中的百分比则表示第一主成分对样品差异的贡献值；纵坐标表示第二主成分，括号中的百分比表示第二主成分对样品差异的贡献值。

图中点分别表示各个样品。

不同颜色代表样品属于不同的分组。

2.2Coremicrobiome分析

图表都是通过qiime（v1.8.0）软件得到的

共有OTU数与样本数的关系：

图2-3覆盖所有样本的微生物组。

横坐标表示样品占的比率，纵坐标表示包含OUT的数目。

这些样本的coremicrobiome（即覆盖所有样本的微生物组）共包含17个OTUs，其物种分类信息如下表2-1。

表2-1覆盖所有样本的OTUs

OTU

Taxonomylevel

Taxonomyname

400850

Genus

Streptococcus

437590

Genus

Capnocytophaga

368428

Species

dispar

645710

Genus

Campylobacter

417699

Genus

Fusobacterium

395972

Genus

Streptococcus

381841

Genus

Streptococcus

140702

Genus

Peptostreptococcus

413823

Genus

Granulicatella

645697

Genus

Campylobacter

414306

Genus

Neisseria

260777

Genus

Fusobacterium

2008

Genus

Neisseria

21908

Genus

Neisseria

645708

Genus

Campylobacter

414422

Family

Gemellaceae

1212

Genus

Granulicatella

2.3生物多样性分析

2.3.1单个样品复杂性分析

通过计算Shannonindex,Chao1index,Phylogeneticdiversity（PD,wholetree）和observednumberofspecies共四个指数来进行生物多样性分析。

通过qiime（v1.8.0）软件计算样品的Alpha多样性值并用R（v3.1.1）软件做出相应的稀释曲线，盒型图。

稀释曲线是利用已测得16SrDNA序列中已知的各种OTU的相对比例，来计算抽取n个（n小于测得Reads序列总数）Tags时各Alpha指数的期望值，然后根据一组n值（一般为一组小于总序列数的等差数列）与其相对应的Alpha指数的期望值绘制曲线。

如样品有提供分组信息，且每组样品个数不小于3，将对组间的Alpha多样性指数进行差异分析。

差异分析的检验方法为秩和检验，如果组数为2，采用两样品比较的WilcoxonRank-SumTest（R中的wilcox.test）；如果组数大于2，采用多样品比较的Kruskal-WallisTest（R中的kruskal.test）。

最后利用Alpha多样性指数绘制盒形图。

差异分析与作图均通过R软件（v3.1.1）进行。

基于OTU的结果，我们计算了样品的Alpha多样性（表2-2）。

Alpha多样性是对单个样品中物种多样性的分析。

chao1多样性估算指数是根据所测得的tags数和OTU的数量以及相对比例来预测样品中微生物的种类（OTU的数量），，是基于已知结果所得相对值。

Shannon指数是一个综合OTU丰度和OTU均匀度两方面因素的一个多样性指数，Shannon及observednumberofspecies、Phylogeneticdiversity（PD,wholetree）指数越大，则表示该样品中的物种越丰富。

表2-2样品的Alpha多样性

#Alpha

mean（CA）

mean（HC）

mean（LK）

Pvalue（KW）

p-vaule（CA-HC）

p-vaule（CA-LK）

p-vaule（HC-LK）

chao1

488.2993557

357.6225984

422.543311

0.1030342

0.04870866

0.359368

0.2476438

observed_species

243.0764706

161.2631579

199.5461538

0.02140905

0.01542679

0.2116511

0.09132691

PD_whole_tree

16.48889235

13.16604611

15.23295877

0.03785742

0.01674553

0.3858799

0.06422109

shannon

3.778127013

2.99788623

3.404163586

0.00392627

0.01131079

0.2167059

0.02426458

Rarefaction分析（样本不分组）：

图2-4单个样品内的Alpha多样性

Rarefaction分析（样本分组）：

图2-5每组样品内的Alpha多样性。

图中红色,黄色,蓝色线分别表示CA,HC,LK组的rarefaction分析结果

图2-6为组Alpha多样性盒形图，更直观显示组间Alpha多样性差异。

盒形图可以显示5个统计量（最小值，第一个四分位数，中位数，第三个中位数和最大值，及由下到上的5条线），异常值以“º”标出。

Alpha多样性的比较，以Shannonindex为例可以看出多样性CA>LK>HC，其中CA/HC有明显差异（P=0.008,Student’sttest），而CA/LK,HC/LK差异不显著

2.3.2样品间复杂度比较分析

Beta多样性（Betadiversity）分析是用来比较一对样品在物种多样性方面存在的差异大小。

本分析中通过QIIME（v1.8.0）软件，采用迭代算法，分别在加权物种分类丰度信息和不加权物种分类丰度信息的情况下，随机抽取各样品中75%Reads单独进行差异计算，迭代100次之后综合统计得到最终的统计分析结果表及PCoA展示图。

Beta多样性热图使用R（v3.1.1）软件中的NMF包的aheatmap进行作图。

UniFrac是通过利用系统进化的信息来比较样品间的物种群落差异。

其计算结果可以作为一种衡量betadiversity的指数，它考虑了物种间的进化距离，该指数越大表示样品间的差异越大。

报告中给出的UniFrac结果分为加权UniFrac（weightedUniFrac）与非加权UniFirac（unweightedUniFrac）2种，其中weightedUniFrac考虑了序列的丰度，unweightedUniFrac不考虑序列丰度。

从下面盒形图看，CA组内的物种丰度最大。

WeightedUnifrac

图2-7Beta多样性的盒形图

UnweightedUnifrac

Unifrac距离的主坐标分析（PCoA）如下：

WeightedUnifrac

UnweightedUnifrac

图2-8Beta多样性的主坐标分析（PCoA）图。

如果两个样品距离越近，则表示这两个样品的组成越相似。

不同处理或不同环境间的样品可能表现出分散和聚集的分布情况，从而可以判断相同条件的样品组成是否具有相似性。

图2-9UniFrac距离分布heatmap。

通过对UniFrac结果的聚类，具有相似beta多样性的样品聚类在一起，反应了样品间的相似性。

2.3.3物种组成分析

本分析中分组后各水平的分类比较柱形图是用QIIME（v1.8.0）软件得到的，单个样品的群落分布柱形图和盒型图是根据QIIME（v1.8.0）软件计算的结果用R（v3.1.1）软件画的。

样品的群落分布图，直观的反应各样品的群落组成。

从门水平的群落分布图中可以看出，在这批样品中，占主要地位的门有Firmicutes，Proteobacteria。

2.3.3.1门（phylum）水平比较

图2-10分组后门水平的分类比较。

从左至右分别为CA,HC,LK的物种组成。

图2-11样品的门水平群落分布图

2.3.3.2纲（class）水平比较

图2-12分组后纲水平的分类比较。

从左至右分别为CA,HC,LK的物种组成。

图2-13样品的纲水平群落分布图

2.3.3.3属（genus）水平比较

图2-14样品的属水平群落分布图

含量最高的25个属的物种组成如下：

可以看出，这些样本中含量最高的属为Streptococcus,Neisseria,Neisseriaceae（family）,Campylobacter,Bacillus,Gemellaceae,TM7-3

2.3.4多组样本的比较分析

下面的表格都是通过QIIME（v1.8.0）软件计算出的，热图是用R（v3.1.1）软件画的。

2.3.4.1.1OTU水平的比较分析

下表是在不同组样本间有显著差异的OTUs（P<0.05,Kruskal-Wallistest），共35个

OTU

Pvalue

CA_mean

HC_mean

LK_mean

Lineage

1082539

0.0042433

0.3096088

0.4614955

0.3054158

s_Streptococcus_infantis

1034052

0.0114896

1.334E-05

9.02E-05

3.309E-05

s_Streptococcus_infantis

CU.OTU3609

0.046838

0.0007717

4.302E-05

7.37E-05

s_Streptococcus_infantis

CU.OTU3951

0.0487232

0.0009347

0.0001798

0.0004562

s_Streptococcus_infantis

561537

0.0046056

4.506E-05

2.515E-05

0.0001385

s_Selenomonas_noxia

2714267

0.0022015

0.0002441

2.728E-05

3.53E-05

s_Prevotella_tannerae

968675

0.000991

0.0014583

0.0021067

0.0067938

s_Haemophiluspara_influenzae

168817

0.0058028

4.681E-05

7.871E-05

0.0002216

s_Capnocytophaga_ochracea

CU.OTU1512

0.0188676

0.000171

5.314E-05

4.729E-05

s_Campylobacter_rectus

CU.OTU4248

0.0263048

3.144E-05

3.67E-05

0.0001205

s_Actinobacillus_porcinus

CU.OTU4669

0.0129222

0.0003367

0

0.0006268

o_Lactobacillales

CU.OTU2884

0.0208585

0.0003042

0.0002567

0.000887

o_Gemellales

931950

0.0299847

0.000336

0.000588

0.0003561

g_Streptococcus

4320317

0.0406687

1.213E-05

7.16E-05

0.0001015

g_Streptococcus

4416763

0.0266763

0.0004081

2.432E-05

4.272E-05

g_Streptococcus

269907

0.0192365

0.0029649

0.0002695

0.000376

g_Prevotella

324532

0.0471365

0.0002089

2.607E-05

5.232E-05

g_Leptotrichia

4305791

0.0030921

0

8.912E-05

0.0002187

g_Cardiobacterium

4294954

0.020554

0.0005766

0.0004379

0.001282

g_Capnocytophaga

1010329

0.0395095

0.0002372

7.529E-05

0.0001302

g_Capnocytophaga

1098655

0.0210558

0.0128739

0

0.1271655

g_Bacillus

OTU19

0.027243

0.0011444

0.0037378

0.0004883

g_Abiotrophia

4321136

0.037865

0.0003906

0.0034499

0.0012684

f_Streptococcaceae

CU.OTU4437

0.0176678

6.529E-05

5.103E-06

0.000202

f_Streptococcaceae

OTU2

0.0041811

4.005E-05

9.346E-06

0.0001607

f_Pasteurellaceae

CU.OTU3881

0.0338498

0.0002141

6.821E-05

0.0004476

f_Neisseriaceae

CU.OTU2027

0.0419597

0.0001243

8.193E-05

0.0002474

f_Neisseriaceae

1101669

0.0395957

0.0189474

0.0406776

0.01988

f_Gemellaceae

CU.OTU160

0.0270141

0.0001768

8.61E-06

3.201E-05

f_Clostridiaceae

851704

0.0304967

0.0081987

0.0006575

0.0014748

f_Clostridiaceae

1090059

6.38E-05

6.461E-05

8.711E-05

0.0003815

f_Carnobacteriaceae

949789

0.0037186

0.0012651

0.0020851

0.003773

f_Carnobacteriaceae

1065974

0.0121445

0.002405

0.0045651

0.0070174

f_Carnobacteriaceae

OTU10

0.0234181

0.0001868

0

0.001004

c_Bacilli

CU.OTU31

0.0286421

0.0004367

2.232E-05

3.781E-05

p_Firmicutes

2.3.4.2属水平的比较分析

首先，PCA分析能够看出3组样本之间有一定程度的差异：

其次，通过Kruskal-Wallistest分析可以找出在不同组间有明显差异（P<0.05）的属如下（共19个属或科）：

CA_mean

HC_mean

LK_mean

Pvalue

g_Streptococcus

0.4330046

0.6081675

0.3946644

0.001482408

g_Campylobacter

0.06485841

0.02935462

0.03472514

0.03853575

g_Bacillus

0.01297139

0

0.1279523

6.82332E-05

f_Gemellaceae

0.0235978

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 16 信息分析报告北京奥维森

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：16S信息分析报告2北京奥维森.docx
链接地址：https://www.bingdoc.com/p-3813177.html

16S信息分析报告2北京奥维森.docx

热门标签