基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf
- 文档编号:5972885
- 上传时间:2023-05-05
- 格式:PDF
- 页数:49
- 大小:1.38MB
基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf
《基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf》由会员分享,可在线阅读,更多相关《基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf(49页珍藏版)》请在冰点文库上搜索。
基于转录因子结合位点序列通常比较短且保守,引入矩阵模型描述转录因子结合位点的特性,同时依据转录因子结合位点的位点保守性各不相同,将碱基保守性参数引入矩阵模型,从而提出预测转录因子结合位点的位置权重打分函数算法(PWMSA)。
首先将四种碱基随机出现的频率作为背景频率,以单碱基位点保守性参量结合单碱基位置权重矩阵的PWMSA算法对22种转录因子结合位点进行预测,总体Self_consistency检验为8759,10-foldcrossvalidation检验为8548。
然后考虑到基因序列中的四种碱基并非随机出现,以四种碱基实际出现的频率作为背景频率,用PWMSA算法对酵母九种转录因子结合位点进行预测,Self-consistency检验预测成功率达8314,10-foldcrossvalidation检验预测成功率为775I。
同时,引进两种最新的评价指标,将PWMSA算法与现有的10种预测转录因子结合位点的软件进行比较,结果表明PWMSA算法的评价指标均高于现有的算法,在核昔酸和结合位点片段两种评价水平上,预测成功率分别高出其他算法4,7个百分点。
考虑到转录因子结合位点之间存在碱基相互作用共同贡献与蛋白的亲和力,利用已知的9种酵母转录因子结合位点序列构建近邻核苷酸二联体位置权重矩阵,计算位点近邻二联体核苷酸保守性参量,使用PWMSA算法对9种酵母转录因子结合位点进行预测,Selfconsistency检验和J0-foldcrossvalidation检验预测成功率分别达到8804,8110,明显高于单碱基位置权重矩阵的结果。
基于启动子序列的内容特征和信号特征与非启动子序列的区别,利用离散量方法提取启动子序列的内容特征;
构建核心启动子元件的位置权重矩阵,使用位置权重矩阵提取启动子序列的信号特征,最后提取启动子和非启动子序列碱基组份特征。
构建了基于综合启动子序列的内容特征和信号特征预测启动子序列的支持向量机分类器,并对人类PolII启动子进行预测,10-foldCrOSSvalidation检验为9570,对另外选取的独立测试集预测成功率为9830,同时与现有的7种预测启动子的软件和算法进行比较,我们的算法预测成功率敏感性为9700,特异性为9798,结果明显优于现有的预测算法和软件。
关键词:
转录因子结合位点,启动子,位置权重矩阵,离散增量,支持向量机BASEDONTHEINFORMATIONoFSEQUENCEST0PREDICTTHETRANSCRIPTIONFACTORBINDINGSITESANDPROMOTERABSTRACTThegenetranscriptionregulationisacentralchallengeofbioinformatics;
animportantstepinthischallengeistheabilitytoidentifytranscriptionfactorbindingsitesandpromoterBasedontheknowntranscriptionfactorbindingsitesandpromotersequences,anewpositionweightmatricesscoringalgorithm(PWMSA)forpredictingtranscriptionfactorbindingsitesispresentedInaddition,thesupportvectormachine(SVM)modelcombinedwithincrementofdiversityisusedtOpredictpromotersBasedonthedifferenceofnucleotideprobabilityineverypositionoftranscriptionfactorbindingsites,thesitesconservationindexesMjarecalculatedAnovelpositionweightmatricesscoringalgorithm(PWMSA)forpredictingtranscriptionfactorbindingsitesispresentedTranscriptionfactorbindingsites(TFBS)canbepredictedbyusingofsitesconservationindexesandthepositionweightmatrices(PWM)Atfirst,theTFBSfor22kindsoftranscriptionfactorinEcolik12genomearepredictedbyusingPWMSAByusingoftheself-consistencytestandthe10-foldCROSSvalidationtest,theresultsshowthattheoverallpredictionaccuraciesare8759and8645,respectivelyAfterthat,theTFBSfor9kindsoftranscriptionfactorinsdccharomycescerevisiaegenomearealsopredictedbyusingPWMSATheresultsinselfconsistencytestandthe10-foldcross-validationtestshowthattheoverallpredictionaccuraciesare8314and7751。
respectivelyBycomparingouralgorithmwithothertensoftwaresusingthesameperformancemeasuresandbenchmarkeddatabase,theresultsshowthattheoverallpredictionaccuraciesofPWMSAare4and7morethantheothertenalgorithms,respectively,atbindingsitessegmentlevelandnucleotidelevel一Thethird,byconsideringtheinterdependenteffectsbetweenbasesintranscriptionfactorbindingsitessequences,thepairwisenucleotidedependentPWMandthePre-conservativeindexvectorsareincorporatedinPWMSATheresultsofpredictionfor9kindsoftranscriptionfactorsinSaccharomycescerevisiaegenomearefurtherimprovedTheresultsshowthattheoverallpredictionaccuraciesare8804and8110,byusingofself-consistencytestandthe10-foldcross-validationtest,respectivelyFinally,theseresultsarediscussedInlastpart,basedonthesixleastincrementdiversity,threekindsofpositionweightmatrixandthepercentofGCinthesequences,thecontentvectorsandthesignalsvectorwereextractedfromthepromotersequencesThesevectorswereinputintoasupportvectormachine(SVM)algorithmtoestablishapromoterclassificationmodelThehumanPolIIpromotersequencesarepredictedbyusingofsupportvectormachineinthe10-foldcrossvalidationandtheindependentdatatestTheresultsshowthattheoverallpredictionaccuracies(sensitivity)andspecificityaremorethan88Inordertocompareourresultswithotheralgorithm,ouralgorithmisappliedtosamedatasetofpromoterastheothermethodsThesensitivityof9700andthespecificityof9789areobtained,itisbetterthanothertopsoftwarescurrentlypublishedKEYWORDS:
transcriptionfactorbindingsites,promoter,positionweightmatrices,measureofdiversity,supportvectormachine原创性声明本人声明:
所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。
除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蒙古大学及其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:
日期:
指导教师签名:
在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:
内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索。
也可以采用影印,缩印或其他复制手段保存、汇编学位论文为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。
作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意:
若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。
学位论文作者签名日期:
指导教师签名日期内蒙古大学硕士学位论文基于序列信息的转录因子结合位点和启动子理论预测一引言
(一)、转录因子结合位点和启动子的研究意义DNA是储藏遗传信息的最主要的生物大分子,DNA分子中的核苷酸排列顺序不但决定了胞内所有RNA及蛋白质的基本结构,还通过蛋白质(酶)的功能间接控制了细胞内全部有效成分的生产、运转和功能发挥It。
基因作为唯一能够自主复制、永久存在的单位,其生物功能是以蛋白质的形式表达出来,如图11。
圈I-1含有反馈的生物中心法则tWatsonandCrick)Figure11WatsonandCricksCentralDogmaofLifeincludingfeedback基因表达是指结构基因在生物体内的转录、翻译以及所有的加工过程。
任何影响基因开启与关闭、转录和翻译过程速率的直接因素,统称为对基因表达的调控,即基因表达调控主要存在转录调控和翻译后调控。
原核生物的基因调控主要发生在转录水平上。
真核生物细胞的组织多样性以及基因结构比原核生物更加复杂,并且真核生物基因的转录和翻译在时阅和空间上完全分隔,基因调控范围更大,包括DNA水平的基因拷贝和重排、转录、转录后RNAJJI工和运输、翻译、翻译后蛋白质修饰等多个层次。
但总的来说,和原核生物一样,真核生物中转录水平的调控是基因表达调控中最重要的一个环节。
无论是原核还是真核细胞,转录的基本过程都包括:
模版识别、转录起始、通过启动子及转录的延伸和终止。
转录的起始是基因表达的关键阶段,这一阶段的重要问题是RNA聚合酶识别并结合到基因上游特定的核苷酸序列(启动子区,promoter),并在各种不同的DNA结合蛋白的配合下启动转录,DNA结合蛋白同时还影响着基因转录的效率,这些DNA结合蛋白被称为转录因子(Transcriptionfactor,TF),他们通过和其他相关蛋白之间的相互作用,激活或抑制转录。
启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度,内蒙古大学硕士学位论文基于序列信息的转录圉了结台位点和启动子理论预测它存在于结构基因上游,是与基因转录启动有关的一段特殊DNA序列,如图1-2。
转录因子结合到DNA上的特定核苷酸序列被称为转录因子结合位点(TranscriptionfactorbindingsiteTFBS),转录因子结合位点通常是一段1030bp的DNA序列,不同的基因表达需要特定的转录因子结合到这段DNA序列上,对于某种转录因子。
其结合的DNA序列比较相似,但又不完全一样,这是由于对不同的基因需要不同的结合亲和力。
基因转录水平上的调控12】如图13。
图12基因启动子示意图Figure12Componentsofpromoter图13基因转录水平调控示意图121(WassermanWWeta1)Figurel一3ComponentsoftranscrjptionaIregulation(WassermanWW,eta1)解释基因的转录调控一直是生物信息学中的一个重要内容,转录因子结合位点和启动子的识别是研究基因转录调控的重要环节,是构建基因调控网络的一个核心问题。
因此识别转录因子结合位点和启动子是理解基因转录调控机制和基因表达模式的基础。
2窒茎童奎兰堡圭兰堡丝耋董三窑型堡呈墼堑重垦三竺垒堡皇竺星塑三矍兰堡塑
(二)、当前理论研究现状对于转录因子结合位点和启动子的测定传统的实验方法有:
足迹法和定点突变法口1;
近年来随着实验技术的改进,出现了大量高通量实验技术测定转录因子结合位点和启动子【4】:
SELEX5,61,DNAmicroarrays7,s,染色质免疫共沉淀结合DNA启动子芯片实验(chromatinimmunoprecip“ationwithpromoterDNAarray,CHIPchip)t9】。
由于这些方法需要的时间周期比较长而且要消耗大量的实验材料。
随着越来越多新的DNA序列的测定,单纯的实验方法测定有其局限性,同时实验测定出来大量的转录因子结合位点和启动子数据,使得我们可以寻求数学、物理的理论方法对转录因子结合位点和启动子进行预测分析。
1转录因子结合位点理论预测的研究现状有关基因转录因子结合位点的识别和预测已有很多方法和软件10-15】,这些预测转录因子结合位点的算法大体上可分为两类116】:
第一类是基于DNA序列信息识别转录因子结合位点【17】:
(1)基于DNA字符串的方法,这种方法就是统计和比较共调控基因调控区中的某段核苷酸序列出现的频率,出现的频率高,就认为其有可能是调控元件,VanHelden!
81最初提出此方法,并且在这方面做了大量的工作t9,20,此方法的优点是能敏感地识别出共调控基因中的保守片断,然而当调控元件缺少保守的核时,此种算法就难以识别;
(2)利用矩阵来描述转录因子结合位点21】,这种方法基于已知的转录因子结合位点,构建矩阵来描述转录因子结合位点的各个位点的碱基组成,一条序列接近矩阵中的最大矩阵,越有可能是转录因子结合位点,这也是当前比较流行的算法22-32,如:
位置频率矩阵(PFM)】,位置权重矩阵(PWM)341,矩阵家族【35】等。
这些方法虽然可以迅速地识别出转录因子结合位点,但是由于背景噪音的影响,在识别出真实的转录因子结合位点的同时还会识别出许多假阳性(FP)的转录因子结合位点,基本上每1000bp碱基中就会被识别出一个转录因子结合位点【2】。
除上述两种方法之外,最近又出现了一种系统发育足迹法(phylogenetiefootprinting)36371以及比较基因组学法【38舯1,这些方法通过多物种间比较,寻找出同源基因并对同源基因的非编码区域进行系统发育比较,进而揭示保守的顺式调控元件(TFBSs)40-421。
内蒙古大学硕士学位论文基于序列信息的转录园子结合位点和启动子理论预测第二类是基于转录因子的蛋白质结构识别转录因子结合位点143-45,主要是通过实验测定的转录因子和结合位点相互作用的结构信息出发,然而由于缺少实验数据,现有的研究只限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 序列 信息 转录 因子 结合 启动子 理论 预测