基因家族分析套路Word格式文档下载.docx
- 文档编号:6369390
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:9
- 大小:604.69KB
基因家族分析套路Word格式文档下载.docx
《基因家族分析套路Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基因家族分析套路Word格式文档下载.docx(9页珍藏版)》请在冰点文库上搜索。
1e-5
–o
alignresult.txt.
-b:
output
two
different
members
in
subject
sequences
(db).
⏹Hmmer
(hidden
Markov
Model)
search.
Thesame
as
PSI-BLAST
function.
It
has
a
higher
sensitivity,
but
the
speed
islower.
Command:
3、过滤。
⏹Identity:
至少50%.
⏹Cover
region:
也要超过50%或者蛋白结构域的长度.
⏹EST
支持
⏹
Blast
Hmmer同时检测到
4、通过上述操作获得某家族的所有成员
基因家族分析套路
(二)
本次主要讲解在基因家族分析类文章中,进化部分分析的内容。
主要是进化树的构建与分析。
一、构建进化树的基本步骤
1、多序列比对.
Muscle
program.
3、算法选择。
三种.
NJ,
ML
BI.
4、软件选
二、具体步骤
2.1
多序列比对。
一般采用muscle。
因为
MUSCLE
is
one
of
best-performing
multiple
alignment
programs
according
to
published
benchmark
tests,
with
accuracy
that
are
consistently
better
than
CLUSTALW.
2.2
模型选择。
对于用蛋白序列构建进化树的可以采用下面命令:
java
-Xmx250m
-classpath
path/ProtTest.jar
prottest.ProtTest
-i
alignmfile.phy.
运行结果如下图
注意:
1)“.Phy”
format.
Only
allow
ten
charaters.注意名字不能重复相同。
2)AIC:
Akaike
Information
Criterion
framework.
3)Gamma
distribution
parameter
(G):
gamma
shape.
3)proportion
invariable
sites:
I.
2.3构建进化树
2.3.1
意义:
a聚类分析。
如亚家族分类。
像MAPKKK基因家族通过进化树可以清楚分为
MEKK,
Raf
ZIK三个亚家族.
b亲缘关系鉴定。
在进化树上位于同一支的往往暗示这亲缘关系很近
c
基因家族复制分析。
研究基因家族复制事件(duplication
events),两种复制事件类型常采用的标准:
Tandem
duplication:
Identity
cover
region
more
70%
tightly
linked
(Holub,
2001).
2.3.2
进化树。
一般ML树比较准确,但应结合方法,如NJ树,相互验证。
2.3.3
进化部分分析:
KaKs计算
ParaAT:
ParaAT.pl-h
test.homologs
-n
test.cds
-a
test.pep
-p
proc
–f
axt
–k
-o
output
c.分歧时间计算:
Divergenttime(T)
calculation.
T=Ks/2λ.
λ
:
mean
5.1-7.1×
10-9
d.Ka/Ks意义:
Ka/Ks=1.中性进化。
Ka/Ks<
>
Ka/Ks>
1.正选择。
Positively
selected
genes
produce
fitness
advantagemutations
evolve
new
functions.
基因家族分析套路(三)
本节主要讲基因结构分析套路
1、Motif分析
使用软件MEME,命令如下:
meme
sample.fa
-dna
–revcomp
-nmotifs
10
-mod
zoops
-minw
6-maxw
50>
meme_htmlFormat.html
2、基因结构分布图
用法如下:
结果展示
3、基因结构常见统计信息:
自己excel或写程序统计
The
number
intron
andexon.
b.
splicing
intronpattern
inculding
0,1,2
phase.
c.
marked
region.
Forexample
kinase
domain.
d.
sequence
length.
e.
UTR.
4、启动子分析。
网站:
主要做植物的:
注意事项:
IE
brower.
for
oncesearch
length
was
limited
1000
bp.
DNA
origin:
or1500
bp
upstream
ATG
gene.
分析结果:
基因家族分析套路(四)
一、转录组及芯片原始数据下载网站
1、
。
用法见下图。
GEO数据ID命名规则:
GPL->
GSE->
GSM.
GPL:
platform
GSE:
series.
GSM:
samples.
GDS
≈
GSE.
Thedifference
concentrated
on
data
labeled
can
be
analyzed
geneonline.
simple
easily.
sameGPL
used
compare
inexperiment
下面是在线分析转录组数据的用法:
2、
该数据库下载数据用法如下:
3、
该数据库下载数据用法如下,注意用户名和密码!
4、
5、DRA
db()
二、数据处理
拿到原始数据,要进行处理,才能进行后续数据分析。
1、芯片数据。
原始数据格式“.cel”格式。
以AffyMicroarray数据处理为例讲述主要的命令如下:
library(affy);
library(makecdfenv);
library……
mydata
<
-
ReadAffy()
##choose
“.cel
“
file
analyzed.
eset
rma(mydata);
write.exprs(eset,file="
mydata.txt"
)
design
model.matrix(~-1+factor(c(1,1,2,2,3,3)))
#
Createsappropriate
matrix.
colnames(design)
-c("
group1"
"
group2"
group3"
)
Assigns
column
names.
fit
lmFit(eset,
design)
Fits
linear
model
each
gene
based
onthe
given
series
arrays.
contrast.matrix
makeContrasts(group2-group1,group3-group2,
group3-group1,
levels=design)
Creates
appropriate
contrast
matrix
toperform
all
pairwise
comparisons.
fit2
contrasts.fit(fit,
contrast.matrix)#
Computes
estimatedcoefficients
standard
errors
set
contrasts.
eBayes(fit2)
moderated
t-statistics
log-oddsof
differential
expression
by
empirical
Bayes
topTable(fit2,
coef=1,adjust="
fdr"
sort.by="
B"
number=10)
Generates
list
top
('
number=10'
)differentially
expressed
sorted
B-values
sort.by=B'
firstcomparison
group.
write.table(topTable(fit2,
number=500),file="
limma_complete.xls"
row.names=F,
sep="
\t"
Exports
complete
limma
statistics
table
forfirst
comparison
results
decideTests(fit2,p.value=0.05);
vennDiagram(results)
2、转录组数据处理。
原始数据格式为sra或fastq格式。
Sra可以转换为fastq然后运用下面的命令进行处理。
1)获得cleandata;
fastx_clipper
clip
adapter.
fastq_quality_filter:
base
quality
control.
fastq_quality_trimmer:
trim
5’
low
bases.
2)计算RPKM.
bowtie2-buildpath/db.seq
path/db
tophat
db
read.fastq
bam_filter
path/accepted_hits.bam
samtools
view
-h
output-uniq.sam
output_uniq.bam
excel
calculation(low
frequencyreads
≤5
were
omitted
).
3)差异表达的基因。
寻找存在差异表达的家族成员,推测其可能的功能。
有下面两种分析策略,均可采用。
a.倍数法。
对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因
b.CV值。
计算某个成员在不同处理下的基因表达变化。
CV
=SD/mean.Used
differenttissues
or
organs
anlysis.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 家族 分析 套路