哈工大人工智能课件chpt9.ppt
- 文档编号:11259098
- 上传时间:2023-05-30
- 格式:PPT
- 页数:156
- 大小:4.91MB
哈工大人工智能课件chpt9.ppt
《哈工大人工智能课件chpt9.ppt》由会员分享,可在线阅读,更多相关《哈工大人工智能课件chpt9.ppt(156页珍藏版)》请在冰点文库上搜索。
人工智能原理第9章自然语言理解简介,本章内容9.1语言与通讯9.2句法分析与语法9.3概率语言模型9.4信息检索9.5信息抽取9.6统计机器翻译参考书目,第9章自然语言理解简介,9.1概述9.1.1语言与通讯9.1.2自然语言处理,第9章自然语言理解简介,4,语言与通讯,通讯是一种通过产生和感知信号带来的有意图的信息交换/信号来自一个由约定信号组成的共用系统人类区别于其他动物的特征是语言复杂的结构化信息系统对智能体而言,产生语言的行动称为言语行为“言语”=“言论自由”中的言论,第9章自然语言理解简介,5,言语行为的目的,通过言语行为达成联合规划:
询问其他智能体关于世界的信息提问相互通知关于世界的信息陈述请求其他智能体行动指令(包括礼貌的间接言语行为、命令等)应答请求承诺或提出计划宣言式言语行为对世界有更直接的影响诸如“现在我宣布”,第9章自然语言理解简介,6,通讯的组成步骤,人类语言产生的目的认知和通讯/典型的通讯情节说话者S用词语集合W将关于命题P的信息通知聆听者H,包括7个过程意图S要把P告诉H生成P用W表示,H可判定P合成物理实现语音/文字等感知H通过语音/文字识别等获知P分析可分为3部分:
句法/语义/语用解释排歧H推断S的含义P合并H决定是否相信P,第9章自然语言理解简介,7,通讯过程,第9章自然语言理解简介,8,分析过程,分析分为3个子过程(人为划定是否就是人类理解语言的过程?
)句法分析为输入字符串建立句法分析树语义解释表示为某种表达式,如谓词逻辑/可能有歧义此时存在多个表达式语用解释考虑到同样词语集合在不同情境下有不同含义/语用能为一个语句的最终解释给出更大贡献有了3个子过程,分析仍然可能给出几个解释,排歧就是选择其中最好的一个,第9章自然语言理解简介,9.1.2自然语言处理,第9章自然语言理解简介,10,WhatisNLP?
什么是自然语言处理(NaturalLanguageProcessing,NLP)是用计算机通过可计算的方法对人类语言进行转换、传输、存贮、分析等加工处理的理论和方法。
构造计算模型,用于自然语言的分析、转换、生成。
其他名称:
计算语言学(ComputationLinguistics)自然语言理解(NaturalLanguageUnderstanding,NLU)人类语言技术(HumanLanguageTechnology)相关名称:
中文信息处理(ChineseInformationProcessing)网络信息处理(WebInformationProcessing),11,基本概念,什么是自然语言自然语言指人类使用的语言,如汉语、英语等。
语言是思维的载体,是人际交流的工具。
语言的两种属性文字和声音人类历史上以语言文字形式记载和流传的知识占知识总量的80以上。
12,基本概念,什么是处理处理是指对信息的接收、存储、转化、传送和发布等等操作分级:
字级处理、概念处理和智能处理智能处理的主要研究领域:
自然语言理解、计算机视觉、机器人学及知识工程智能的未来发展,将会对知识库、专家系统、推理系统和神经网络等综合应用,达到能够模拟人类比较复杂的思维和行为,13,为什么要研究自然语言处理?
信息时代到了!
语言是信息的载体。
提高计算机的智能:
能理解和处理大量语言信息。
14,机器能够理解人的语言吗?
很难,但是没有证据表明不行。
什么是理解?
结构主义:
机器的理解机制与人相同。
问题在于谁也说不清自己理解语言的步骤。
功能主义:
机器的表现与人相同。
图灵测试:
如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。
15,一个NLP的例子:
英汉翻译,输入英文句子:
MissSmithputtwobooksonthistable.形态分析(MorphologicalAnalysis)词形还原(Lemmatization):
将词还原为词典中的原型。
词汇符号化(Tokenization):
相当于中文分词。
分析结果:
MissSmithputtwobook+sonthistable.,16,句法分析(SyntacticAnalysis):
分析句子的结构。
17,词汇转换Miss小姐Smith史密斯put(+ed)放two两book+s书on在上面this这diningtable.餐桌短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面,18,生成史密斯小姐放两书在这桌子上面。
史密斯小姐(把)两(本)书放在这(张)桌子上面。
最终翻译结果英文:
MissSmithputtwobooksonthetable.中文:
史密斯小姐把两本书放在这张桌子上面。
19,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,文本采集文本格式转换:
PDF、Office、HTML纯文本文本编码识别、转换:
GB、Big5、Unicode。
20,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,句子边界识别例如:
Mr.Wanglikesswimming,dancingandreading.,21,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,研究构词方法,词的有意义的组合。
构词的基本单位:
词素(词根、前缀、后缀、词尾)例如:
老虎老虎;图书馆图书馆例如:
work+erworkerdo+ingdoing,22,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,将句子切分为词序列例如:
钓鱼岛/是/中国/的/领土/。
23,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,给句子的词标注正确的词性例如:
钓鱼岛n/是v/中国n/的de/领土n/。
24,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,分析句子的组成结构,句子结构成分之间的相互关系。
判定一个句子的合法性,25,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,研究给句子的词标注正确的词义。
例如:
这个人真牛。
/牛:
动物了不起。
26,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。
语言和世界的映射关系施事、受事、工具等,27,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,为什么要说这句话研究不同语境中的语句的应用,及语境对语句理解的作用语言交际目的:
主题、述体、焦点,28,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,分析篇章的结构、主题、观点、摘要、有用信息主题分析观点分析自动文摘信息抽取信息过滤,29,机器如何理解自然语言?
机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,信息检索搜索引擎、数字图书馆文本分类、聚类分类检索、聚类检索话题探测与追踪,30,NLP的研究内容(基础研究),31,NLP的研究内容(应用研究),32,NLP的不同层次,应用系统数字图书馆、电子商务、搜索引擎电子政务、远程教育、语言学习,基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等,应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取,资源建设语料库资源建设语言学知识库建设,语言学家,NLP研究者,软件企业,33,NLP的学科特点(交叉性学科),语言学:
语言学基础知识。
语言学理论:
形式语言文法语言学资源:
词典、语料库、知识库数学语料库语言学的数学基础:
概率论、统计学、信息论。
模型:
自动机、Markov模型、HMM等。
计算机科学机器学习:
机器的学习算法人工智能(问题求解,知识表示,状态空间图搜索算法)心理语言学:
研究人类理解自然语言的机制。
9.2句法分析与语法9.2.1语言的基本原理9.2.2句法分析过程,第9章自然语言理解简介,35,9.2.1语言的基本原理,形式语言(人造语言)被定义为一个字符串集合/字符串由终结符(词汇)串联而成/都有严格的定义自然语言却没有严格定义却被一个说话者群体所使用考虑用处理形式语言的方式处理自然语言自然语言可以用不同的但是相互联系的几组符号来表示包括语法、语义、语用等/尽可能采用形式化表示,第9章自然语言理解简介,36,自然语言的符号系统
(1),符号系统的核心是语义表示语义的基础是词汇自然语言中的终结符号,由它们依据一定规则构成有效字符串/不能“让人听不明白”语义必须保证其表示能够在智能体之间有效地进行通讯与有效的字符串结合/予以需要借助于语法进行表示语法是详细说明一种语言的有限规则集合自然语言没有正式语法/语言学家试图通过科学调查发现语言的特性,并编纂语法/还没有一个完全成功,第9章自然语言理解简介,37,自然语言的符号系统
(2),语义离不开具体的通讯环境/理解一个字符串的语用很重要语用是在一个特定情境(通讯环境)下表达出的字符串的实际含义由于语义相对于语法是深层结构,而语法作为表层结构其规则经过了很长时间的研究形成了相对稳定的体系更多的结构表示来自语法合乎语法的字符串子串短语结构,第9章自然语言理解简介,38,自然语言的符号系统(3),短语结构是语言结构中的基础部分构成自然语言语句的字符串是由来自不同范畴的称为短语的字串构成/短语通常对应自然语言语义元素NP名词短语,指代世界中的事物/VP动词短语,描述事物的行为或状态/其他短语介词短语、形容词短语、副词短语、数量短语、其他短语符号和句子符号S统称为非终结符语法系统使用产生式规则形式来定义这些符号,规则也叫重写规则,第9章自然语言理解简介,39,语言文法,语言文法:
四元组:
G=(VN,VT,R,S)VN:
非终结符的集合,表示句子结构分析的中间成分VT:
终结符的集合,相当于词汇表。
R:
规则集:
基本形式:
。
其中:
,。
S:
初始符号,代表语言的句子。
例如:
句子:
Themanatetheapple.,40,形式化语法的类型,Chomsky在1957提出了形式化语法的4种类型,其描述语言的能力可以按序递增由相应文法产生的语言分别叫做该文法语言正则文法约束最强,表示能力越弱上下文无关文法至少有些自然语言不是上下文无关的上下文有关文法其约束可以写成在相同的前后符号中,非终结符符号重写递归可枚举文法无约束的重写规则,第9章自然语言理解简介,41,句法分析层次,句法分析是为一个词汇字符串建立句法分析树的过程句法分析有一个专门的术语parsing(parse=V/N,parser=句法分析器)句法分析有不同的分析层次浅层分析(shallowparsing)和完全分析(fullparsing)浅层分析把句子划分为几个具有不同功能的部分完全分析给出句子的层次结构,第9章自然语言理解简介,42,9.2.2句法分析过程,句法分析的前提是词典和语法词典词汇及其相关信息的集合/关于词汇的相关信息中最重要之一是词性(Part-Of-Speech,简称POS)词性把词汇划分为若干类开放类和封闭类语法关于短语结构(包括S)如何生成的规则/有不同的语法规则体系句法分析选定一种体系,依据该体系的符号生成句法树中每个节点语法的来源语言学家观察大量的语言现象从中归纳/人工标注树库,然后自动抽取,第9章自然语言理解简介,43,搜索句法分析树,句法分析看作是搜索句法分析树的过程通常有2种方法自顶向下(Top-Down)和自底向上(Bottom-Up)自顶向下从S出发,搜索一棵以指定词汇为叶子节点的句法树自底向上从给定的词汇出发,搜索一棵以S为根节点的树这两种方法都可以用搜索问题的4个组成部分来描述(初始状态/后继函数/目标检测,但是通常不涉及路径耗散),第9章自然语言理解简介,44,自顶向下搜索过程,初始状态根节点+未知子节点S:
?
后继函数选择未知子节点中最左节点,然后在语法规则中尝试匹配根标记出现在规则左部的那些规则;一旦匹配成功,“?
”位置上产生后继状态即“?
”被相应的规则右部代替/例如S:
?
可以被S:
NP:
?
VP:
?
代替/随后,NP:
?
继续扩展,生成多个后继状态,直到匹配叶子节点等等目标测试检验句法树的叶子节点是否符合输入的字符串/若符合,说明自顶向下的句法分析成功,第9章自然语言理解简介,45,自底向上搜索过程,初始状态输入字符串中全部词汇,形成一个列表(看作节点序列)后继函数对于列表中的每个节点i和句法规则中每条规则的右部,检查列表中起始于节点i的子序列是否与规则右部相匹配/如果匹配,则该子序列被新的树替代,其子树根节点为规则左部符号,子节点就是原序列目标测试检查某个状态是否包含一棵以S为根节点的树自底向上分析的例子见下页图,第9章自然语言理解简介,46,自底向上分析的例子,第9章自然语言理解简介,47,句法分析中的遇到的问题,自顶向下分析中的“左递归”问题形如“XX”的规则采用深度优先搜索,就会陷入无限循环;采用广度优先搜索则会因为输入的语句是非法语句而陷入无限搜索空间自底向上分析可能生成不完全句法分析由于短语组合的多样性,自顶向下和自底向上句法分析都存在分析效率低的问题,因为它们都会对和生成句法树不相关的部分而浪费时间提高效率,第9章自然语言理解简介,9.3概率语言模型9.3.1概率语言模型的建立9.3.2概率上下文无关语法,第9章自然语言理解简介,49,语料库语言学,语料库语言学在20世纪90年代初期崛起,随即成为自然语言处理的主流语料库(corpus/plural=corpora)大规模的文本集合语料库方法意味着使用统计和学习的方法来利用语料库/通过学习(使用统计手段)从数据中获得概率语言模型对于大多数任务来说,大量数据可以补偿较简单的语言模型带来的问题,第9章自然语言理解简介,50,统计语言模型,什么是统计语言模型(LanguageModel)统计语言模型试图捕获自然语言的统计规律以改善自然语言应用系统的性能一个概率模型,对各种语言单位如字、词、句子或文章进行概率分布的估计。
广泛地应用于语音识别、手写体识别、机器翻译、音字转换、信息检索。
51,完美的语言模型,对于词序列(或其他语言单位)如何计算概率分布?
根据链式规则:
即使对于很小的m,上面的理想公式也很难计算,因为参数太多。
52,例子,53,Markov链,有限的记忆能力不考虑太“旧”的历史只记住前n-1个词,称为n-1阶Markov链近似,54,例子(Bigram,Trigram),55,N-gram模型:
相当于n-1阶Markov链。
“n-gram”=n个词构成的序列,Unigramn=1;Bigramn=2;Trigramn=3;模型结构模型:
由一组模型参数组成。
每个N-gram模型参数:
n-gram及其频度信息,形式为:
或这里:
模型作用:
计算概率。
模型训练:
在训练语料库中统计获得n-gram的频度信息,N-gram模型,56,参数训练系统,57,N的选择:
可靠性vs.辨别力,“我正在_”讲课?
图书馆?
听课?
学习?
借书?
“我正在图书馆_”学习?
借书?
58,可靠性vs.辨别力,更大的n:
对下一个词出现的约束性信息更多,更大的辨别力更小的n:
在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性可靠性和可区别性成反比,需要折中。
59,N的选择词表中词的个数|V|=20,000词,60,N-gram模型应用-音字转换,给定拼音串:
tashiyanjiushengwude可能的汉字串踏实研究生物的他实验救生物的他使烟酒生物的他是研究生物的,61,音字转换计算公式,62,可能的转换结果,分词结果踏实研究生物的:
踏实/研究/生物/的他实验救生物的:
他/实验/救生/物/的他使烟酒生物的:
他/使/烟酒/生物/的他是研究生物的:
他/是/研究/生物/的如果使用Bigram计算:
P(踏实研究生物的)=P(踏实)P(研究|踏实)P(生物|研究)P(的|生物)P(他实验救生物的)=P(他)P(实验|他)P(救生|实验)P(物|救生)P(的|物)P(他是研究生物的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)选择概率最大的句子,作为转换结果,63,N-gram模型应用-中文分词,给定汉字串:
他是研究生物的。
可能的分词结果:
1)他|是|研究生|物|的2)他|是|研究|生物|的,64,统计分词计算公式,65,采用Bigram计算P(他/是/研究生/物/的)=P(他)P(是|他)P(研究生|是)P(物|研究生)P(的|物)P(的)P(他/是/研究/生物/的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(的),66,模型参数估计模型训练,两个概念训练语料:
用于建立模型的给定语料。
最大似然估计:
用相对频率计算概率的方法。
67,模型参数估计模型训练,68,零概率问题,大量的低频词,无论训练数据的规模如何扩大,其出现频度仍旧很低甚至根本不出现。
如果采用MLE估算它们的概率分布,将出现大量的,从而导致的情况,这种情况大大削弱了该模型的描述能力。
69,例子,假设我们使用Trigram模型如果某个那么P(S)=0这就是数据稀疏问题(零概率问题)必须保证从而使,70,模型中的可能元素,设词典中有15000个词语,则这些词语产生的可能词对数量就是二元模型中具有的元素个数=150002=2.25*108而Russell的这本厚达700页的书包含的英语词语数目=5*105,远远无法覆盖建立一个二元模型所需的词对/其中99.8%的词对出现的概率=0但是,我们并不希望这些词对出现的数量为0,否则无法计算相关的概率,第9章自然语言理解简介,71,解决数据稀疏问题,概率为0的问题就是所谓数据稀疏问题解决方法平滑(smoothing)最简单的方法加1平滑语料库中有n个词语/b个可能的词对,则每个实际次数为c的二元组的估计概率=(c+1)/(n+b)线性插值平滑把一元模型/二元模型/三元模型结合起来P(wi|wi-2wi-1)=c3P(wi|wi-2wi-1)+c2P(wi|wi-1)+c1P(wi)其中c3+c2+c1=1各种估计方法/特别是如何为那些当前语料库中为0的部分预留概率,第9章自然语言理解简介,72,平滑的效果,数据平滑的效果与训练语料库的规模有关数据平滑技术是构造高鲁棒性语言模型的重要手段训练语料库规模越小,数据平滑的效果越显著,训练语料库规模越大,数据平滑的效果越不显著,甚至可以忽略不计,73,模型的评价,N元模型的评价标准考察模型在测试语料库上的概率往往因为对于长的字符串的概率过小而引起计算问题模型混乱度(perplexity)取代概率其中N是words的个数(二元模型就是二元对的个数)/P(words)是该模型下所有words的概率乘积混乱度越低,则模型越好,第9章自然语言理解简介,9.4信息检索9.4.1信息检索模型9.4.2检索结果评价与表示9.4.3信息检索系统实现9.4.4信息抽取,第9章自然语言理解简介,75,基本概念,信息检索(InformationRetrieval,IR):
在一个文档集合中找出与用户需要的信息相关的文档,也称为特定信息的检索问题(ad-hocretrievalproblem)信息检索和数据库检索的区别检索对象不同数据库检索:
结构化数据(数据库记录)。
信息检索:
非结构文本(网页、自然语言文本),76,IR处理对象,检索对象非结构化文本自然语言文本:
新闻、文献资料等网页:
HTML、XML多媒体信息:
图像、视频、图形、音频检索范围互联网图书馆文献资料库局域网网站,77,IR系统,78,IR任务,给定文档集合(documentcollection)用户查询(Query)用户特定的信息需求(informationneed)检索式:
关键词序列、布尔表达式、自然语言问句检索查找所有与用户Query相匹配的文档计算Query与它们之间的相关性(relevance)根据相关性排序(rank),输出,79,信息检索系统的体系结构,分词删除停用词Stemming(提取词干),为文档建立倒排索引表,根据倒排索引表检索出与提问相关的文档,将检索出的文档根据相关性排序,Query输入和文档输出相关反馈结果的可视化,对query进行变换,以改进检索结果,80,IR系统的组件,用户接口管理和用户的交互过程,包括:
提问输入和文档输出相关反馈结果的可视化用户查询文本操作&文档文本操作过滤停用词(stopword)词形还原(stemming)转换为机器内部的文档表示格式用户查询处理将用户查询进行同义词扩充根据用户信息偏好对查询进行限制。
81,IR系统的组件,索引建立文档集合的倒排索引数据库管理文档数据库的维护搜索根据用户查询,借助于倒排索引表和数据库管理模块从数据库中抽取出包含用户查询中关键字的文档相关性排序计算用户query与文档的相关性根据文档的相关性排序,82,9.4.1信息检索模型,如何表示一个文档(文本)把文档中的每个词(或字)当作一个特征,每个文档构成一个特征向量主要有3种模型布尔模型特征出现于文档中取值为1/否则为0,返回包含查询向量的文档向量空间模型(VectorSpaceModel)计算文档向量和查询向量之间的距离,返回最近距离的文档概率模型给定文档条件下,计算查询概率句法分析技术并没有应用于IR系统中,第9章自然语言理解简介,83,布尔模型描述,文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准,84,举例,Q=病毒AND(计算机OR电脑)ANDNOT医文档:
D1:
据报道计算机病毒最近猖獗D2:
小王虽然是学医的,但对研究电脑病毒也感兴趣D3:
计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?
85,IR模型
(2),布尔模型的优点:
简单易行缺点:
相关度只用0/1表示,无法对相关文档排序查询结果改进比较难改进:
使用基于词语频率的统计模型词语频率如何计算:
词条权重tf-idf公式/向量空间模型文档和查询之间概率关系如何:
推导概率模型,第9章自然语言理解简介,86,向量空间模型(VectorSpaceModel),词表:
若干独立的词项被选作索引项(indexterms)or词表vocabulary索引项(term)集合,可以给每个词项附加权重。
Query和文档表示索引项(Term)及其权重组成的n维向量表示。
未加权的词项:
Q=database;text;information加权的词项:
Q=database0.5;text0.8;information0.2查询和文档进行向量的相关性计算:
夹角余弦或者内积优点:
简洁直观缺点:
标引项之间的独立性假设与实际不符。
87,词语的权重,常用的3种权重,第9章自然语言理解简介,tf=termfrequencydf=documentfrequencydf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈工大 人工智能 课件 chpt9