欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    统计机器翻译综述中文自然语言处理开放平台中国科学院计算技术.docx

    • 资源ID:8976497       资源大小:74.54KB        全文页数:20页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    统计机器翻译综述中文自然语言处理开放平台中国科学院计算技术.docx

    1、统计机器翻译综述中文自然语言处理开放平台中国科学院计算技术统计机器翻译综述刘群(北京大学计算语言学研究所 北京 100871)(中国科学院计算技术研究所 北京100080)摘要:本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。关键词:统计机器翻译 信源信道模型 最大熵方法中图分类号:TP391Survey on Statisti

    2、cal Machine TranslationLIU Qun(Institute of Computational Linguistics, Peking University, Beijing 100871)(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)Email: liuqunAbstract: The paper gives a survey on three approaches of statistical machine translation and the eval

    3、uation methods used in SMT. The basic idea of parallel grammar based approach is to build parallel grammars for source and target languages, which conform the same probabilistic distribution. In the source-channel approach, the translation probability is expressed as a language model and a translati

    4、on model. In the maximum entropy approach, the optimal translation is searched according to a linear combination of a series of real-valued feature functions. The source-channel approach can be regard as a special case of maximum entropy approach.Keywords: Statistical Machine Translation, Source Cha

    5、nnel Model, Maximum Entropy Method1 概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以翻译为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎

    6、不再被人使用。1990年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。作者根据所查阅的文献,把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子

    7、进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的Head Transducer模型和吴德恺的ITG模型,由于这类方法影响较小,而本文篇幅有限,这里不对这类方法进行介绍。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的Peter Brown等人在1990年代初提出的4,5,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法9,这种方法是比信源信道模型更一般化的一种模型。本文将依次介绍后两类统计机器翻译方法,

    8、然后介绍一下在统计机器翻译中经常使用的机器翻译自动评测技术,最后给出总结。2 基于信源信道思想的统计机器翻译方法2.1 IBM的统计机器翻译方法2.1.1 基本原理基于信源信道模型的统计机器翻译方法的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。假设一段目标语言文本T,经过某一噪声信道后变成源语言S,也就是说,假设源语言文本S是由一段目标语言文本T经过某种奇怪的编码得到的,那么翻译的目标就是要将S还原成T,这也就是就是一个解码的过程。根据Bayes公式可推导得到:这个公式在Brown等人的文章4中称为统计机器翻译的基本方程式(Fundamental Eq

    9、uation of Statistical Machine Translation)。在这个公式中,P(T)是目标语言的文本T出现的概率,称为语言模型。P(S|T)是由目标语言文本T翻译成源语言文本S的概率,称为翻译模型。语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性。也许有人会问,为什么不直接使用P(T|S),而要使用P(T)P(S|T)这样一个更加复杂的公式来估计译文的概率呢?其原因在于,如果直接使用P(T|S)来选择合适的T,那么得到的T很可

    10、能是不符合译文语法的(ill-formed),而语言模型P(T)就可以保证得到的译文尽可能的符合语法。这样,机器翻译问题被分解为三个问题:1. 语言模型Pr(t)的参数估计;2. 翻译模型Pr(s|t)的参数估计;3. 搜索问题:寻找最优的译文;从1980年代末开始到1990年代中期,IBM的机器翻译研究小组在统计机器翻译的思想指导下进行了一系列的研究工作4,5,2并实现了一个法语到英语统计机器翻译系统。对于语言模型Pr(t),他们尝试了采用n语法、链语法等语法模型。链语法模型比n元语法模型的优点在于可以处理长距离的依赖关系。下面我们着重介绍翻译模型。2.1.2 IBM统计翻译模型对于翻译模型

    11、Pr(f|e),IBM公司提出了5种复杂程度递增的数学模型5,简称为IBM Model 15。模型1仅考虑词与词互译的概率t(fj|ei)。模型2考虑了单词在翻译过程中位置的变化,引入了参数Pr(aj|j,m,l),m和l分别是目标语和源语句子的长度,j是目标语单词的位置,aj是其对应的源语单词的位置。模型3考虑了一个单词翻译成多个单词的情形,引入了产出概率(n|ei),表示单词ei翻译成n个目标语单词的概率。模型4在对齐时不仅仅考虑词的位置变化,同时考虑了该位置上的单词(基于类的模型,自动将源语言和目标语言单词划分到50个类中)。模型5是对模型4的修正,消除了模型4中的缺陷(deficien

    12、cy),避免对一些不可能出现的对齐给出非零的概率。在模型1和2中,首先预测源语言句子长度,假设所有长度都具有相同的可能性。然后,对于源语言句子中的每个位置,猜测其与目标语言单词的对应关系,以及该位置上的源语言单词。在模型3,4,5中,首先,对于每个目标语言单词,选择对应的源语言单词个数,然后再确定这些单词,最后,判断这些源语言单词的具体位置。这些模型的主要区别在于计算源语言单词和目标语言单词之间的连接(Connection)的概率的方式不同。模型1最简单,只考虑词与词之间互译的概率,不考虑词的位置信息,也就是说,与词序无关。好在模型1的参数估计具有全局最优的特点,也就是说最后总可以收敛于一个与

    13、初始值无关的点。模型2到5都只能收敛到局部最优,但在IBM的实验中,每一种模型的参数估计都依次把上一种模型得到的结果作为初始值,于是我们可以看到最后的结果实际上也是与初始值无关的。下面以模型3为例,说明一下从源语言(英语)文本产生目标语言(法语)文本的过程:1. 对于句子中每一个英语单词e,选择一个产出率,其概率为n(|e);2. 对于所有单词的产出率求和得到m-prime;3. 按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为1的单词,复制两遍产出率为2的单词,依此类推;4. 在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插入的概率分别

    14、为p1和p0;5. 设0为插入的空单词NULL的个数。6. 设m为目前的总单词数:m-prime+0;7. 根据概率表t(f|e),将每一个单词e替换为外文单词f;8. 对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语单词在英语句子中的位置,l是英语串的长度,m是法语串的长度;9. 如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败;10. 给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有被占用)。任何一个赋值都被认为是等概率的,概率值为1/

    15、0。11. 最后,读出法语串,其概率为上述每一步概率的乘积。2.1.3 搜索算法从上述IBM Model 3的介绍中可以看出,对于统计机器翻译而言,搜索算法是一个严重的问题。因为搜索空间一般都是随着源语言句子的大小呈指数增长的,要在多项式时间内找到全局最优解是不可能的。为了在尽可能短的时间内找到一个可接受的译文,必须采用各种启发式搜索策略。对于搜索问题,IBM采用一种在语音识别取得广泛成功的搜索算法,称为堆栈搜索(Stack Search),这里不做详细介绍。其他的搜索算法还有柱搜索(Beam Search)、A*搜索等等。虽然搜索问题很严重,不过IBM的实验表明,搜索问题并不是统计机器翻译的

    16、瓶颈问题。实际上,统计机器翻译的错误只有两种类型:1. 模型错误:即根据模型计算出概率最高的译文不是正确译文;2. 搜索错误:虽然据模型计算出概率最高的译文是正确译文,但搜索算法没有找到这个译文。根据IBM的实验,后一类错误只占所有翻译错误的5%。2.1.4 Candide系统与传统的基于转换的机器翻译方法相比,我们可以看到IBM的统计机器翻译方法中没有使用任何的非终结符(词性、短语类等)。所有的参数训练都是在词的基础上直接进行的。IBM的研究者基于上述统计机器翻译的思想,以英法双语对照加拿大议会辩论记录作为双语语料库,开发了一个法英机器翻译系统Candide 2。FluencyAdequac

    17、yTime Ratio199219931992199319921993Systran.466.540.686.743Candide.511.580.575.670Transman.819.838.837.850.688.625Manual.833.840上表是ARPA测试的结果,其中第一行是著名的Systran系统的翻译结果,第二行是Candide的翻译结果,第三行是Candide加人工校对的结果,第四行是纯人工翻译的结果。评价指标有两个:Fluency(流利程度)和Adequacy(合适程度)。(Transman是IBM研制的一个译后编辑工具。Time Ratio显示的是用Candide加T

    18、ransman人工校对所用的时间和纯手工翻译所用的时间的比例。)从指标上看,Candide已经和采用传统方法的商品系统Systran不相上下,译文流利程度甚至已经超过了Systran。不过,Candide采用的并不是纯粹的统计模型。实际上,Candide采用的是也是一种“分析转换生成”的结构。分析阶段使用了形态分析和简单的词序调整,生成阶段也使用了词序调整和形态生成,分析和生成这两个过程都是可逆的。只有在转换阶段使用了完全的统计机器翻译方法。这种做法可以达到三个目的:使隐藏在词语变形之后的英法语对应规则性显示出来;减少了双语的词汇量;减轻了对齐的负担。不过,也正因为这个原因,有人抨击统计机器翻

    19、译是“石头汤(Stone Soup)”,并认为在这个系统中真正起作用的还是规则方法,因为英法两种语言词序本身相差就不是太大。通过预先的词序调整,两种语言的词序更为接近,这实际上避开了IBM统计机器翻译方法的最大问题。2.1.5 IBM统计机器翻译方法小结IBM提出的统计机器翻译基本方程式具有非常重要的意义。而IBM的其他工作只是对这个基本方程式的一种理解。从理论上说,IBM的模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差比较大时效果可能会不太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。IBM提出的统计机器翻译方法在研究者中

    20、引起了相当大的兴趣,很多研究者都开展了相关的工作,并取得了一些进展。下面简要介绍其中的一些改进。2.2 王野翊(Yeyi Wang)在CMU(卡内基梅隆大学)的工作王野翊在他的博士论文13中提出了一种对于IBM统计翻译模型的一种改进方法。由于IBM的模型完全没有考虑句子的结构信息,这使得人们怀疑IBM模型能否在句法结构相差较大的语言对中获得成功。王野翊在他的口语机器翻译实验中也发现,由于德语和英语这两种语言存在的结构差异,导致IBM的词对齐模型成为翻译错误的一个重要来源。为此,王野翊提出了一种改进的统计翻译模型,称为基于结构的翻译模型。这个模型分为两个层次:粗(Rough Alignment)

    21、对齐模型和细对齐(Detailed Alignment)模型。首先,源语言和目标语言的短语通过一个粗对齐模型进行对齐,然后短语内的单词再通过一个细对齐模型进行对齐。粗对齐模型类似于IBM Model 2,席对齐模型类似于IBM Model 。为了在粗对齐阶段实现双语短语的对齐,王野翊引入了一种双语的文法推导算法。在训练语料库上,通过基于互信息的双语词语聚类和短语归并反复迭代,得到一组基于词语聚类的短语规则。再用这组规则进行句子的短语分析。王野翊的实验表明,结构的引入不仅使统计机器翻译的正确率有所提高(错误率降低了11%),同时还提高了整个系统的效率,也缓解了由于口语数据的严重缺乏导致的数据稀疏

    22、问题。2.3 约翰霍普金斯大学(JHU)的统计机器翻译夏季研讨班IBM提出统计机器翻译方法引起了研究者广泛的兴趣。不过,由于其他人无法得到IBM的源代码,而要进行统计机器翻译的研究,首先需要重复IBM的统计机器翻译试验,然后才谈得上对它进行改进。这将面临着编码方面巨大的工作量。于是,在1999年夏天,很多相关的研究者会聚在约翰霍普金斯大学(JHU)的夏季研讨班上,大家共同合作,重复了IBM的统计机器翻译试验,并开发了一个源代码公开的统计机器翻译工具包Egypt。在这以后,这些研究者回到各自的研究机构,继续开展相关的研究工作,并提出了各种改进的模型,使得统计机器翻译的研究又出现了一个新的高潮。在

    23、约翰霍普金斯大学的1999年统计机器翻译夏季研讨班上,研究者们构造了一个基本的统计机器翻译工具集Egypt,并将该工具集在感兴趣的研究者中间自由散发。在研讨班上,他们使用这个工具集作为试验的平台进行了一系列的实验1。研讨班开始时预期达到的目标如下:1. 构造一个统计机器翻译工具并使它对于研究者来说是可用的。这个工具集应该包含语料库准备软件、双语文本训练软件和进行实际翻译的实时解码软件。2. 在研讨班上用这个工具集构造一个捷克语英语的机器翻译系统;3. 进行基准评价。这个评价应该包含客观评价(统计模型困惑度)和主观评价(质量的人工判断),并试图使二者互相联系。我们还要产生一个学习曲线,用于显示系

    24、统性能如何随着双语语料的数量发生变化。4. 通过使用形态和句法转录机改进系统性能;5. 在研讨班最后,在一天之内构造一个新语对的翻译系统。研讨班最后完全达到了上述目标。除此之外,研讨班还完成了以下实验:提高双语训练的速度,使用双语词典,使用同源词。研讨班上还构造了一些工具来支持以上实验,包括一个用于浏览词对词对齐的结果的复杂的图形界面,一些准备和分析语料库的工具,和一个人工判断的评价界面。EGYPT工具包包含以下几个模块:1. GIZA:这个模块用于从双语语料库中抽取统计知识(参数训练)。2. Decoder:解码器,用于执行具体的翻译过程(在信源信道模型中,“解码”就是“翻译”)。3. Ca

    25、iro:整个翻译系统的可视化界面,用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程。4. Whittle:语料库预处理工具。Egypt是个免费的工具包,其源代码可以在网上自由下载。这为相关的研究工作提供了一个很好的研究基础。2.4 Yamada和Knight的工作基于句法结构的统计翻译模型南加州大学信息科学研究所(ISI/USC)的Kevin Knight是统计机器翻译的主要倡导者之一,在统计机器翻译方面做了一系列的研究和推广工作,他也是JHU的统计机器翻译夏季讨论班的主要组织者之一6。Yamada, Knight等人在IBM的统计翻译模型的基础上,提出了一种基于句法结构的统计

    26、翻译模型14。其主要的思想是:1. IBM的信源信道模型中,噪声信道的输入和输出都是句子,而在基于句法结构的统计翻译模型中,噪声信道的输入是一棵句法树,输出是一个句子;2. 在翻译过程中,对源语言句法树进行以下变换:a) 对句法树进行扁平化处理(将相同中心词的多层结点压缩到一层);b) 对于源语言句法树上面的每一个结点的子节点进行随机地重新排列(N个子节点就有N!种排列方式),每一种排列方式都有一个概率;c) 对于句法树任何一个位置随机地插入任何一个新的目标语言单词,每一个位置、每一个被插入的单词都有不同的概率;d) 对于句法树上每一个叶节点上的源语言单词翻译成目标语言单词,每一个不同的译文词

    27、选择都有不同的概率;e) 输出句子,其概率为上述概率的乘积。从现有的文章中看,他们的实验采用了一个从英日词典中抽取的例句语料库,一共只有2121个句子,平均句长不到10个词。虽然其结果比IBM Model 5更好,不过由于他们的实验规模还比较小,严格来说并不具有足够的说服力。2.5 Och等人的工作德国RWTH Aachen University of Technology等人在统计机器翻译领域也开展很多的工作。在德国主持开发的著名的语音机器翻译系统Verbmobil中,Och所在的研究组承担了其中统计机器翻译模块7。与IBM的模型相比,他们主要做了以下改进:1. 为了解决数据稀疏问题,他们采

    28、用了基于类的模型,利用一种自动的双语词聚类技术,将两种语言的每一个词都对应到一个类中,总共使用了400个类;2. 在语言模型上,采用了基于类的五元语法模型,采用回退(Back-off)平滑算法;3. 在翻译模型上,采用了一种称为对齐模板(Alignment Template)的方法,实现了两种层次的对齐:短语层次的对齐和词语层次的对齐。对齐模板也采用基于类的对齐矩阵的形式表示,如下图所示:对齐模板的获取是自动进行的,在对训练语料进行词语对齐以后,所有可能的对齐模板都被保存下来,并根据其在语料库中出现的频率赋予不同的概率。对于一个新句子进行短语匹配的过程类似于一个汉语词语切分的过程,采用一个动态

    29、规划算法,寻找概率最大的路径。4. 为了搜索的方便起见,他们对于IBM提出的统计机器翻译基本方程式进行了修改,用一个反向的翻译模型取代了正常的翻译模型,如下所示:通过实验他们发现,这种改变并没有降低总体的翻译正确率。3 基于最大熵思想的统计机器翻译方法正如上一节所述,Och等人在进行统计机器翻译实验时发现,把IBM统计机器翻译基本方程式中的翻译模型换成反向的翻译模型,总体的翻译正确率并没有降低,这用信源信道理论是无法解释的。于是,他们借鉴了10,11中统计自然语言理解的一种思路,提出了基于最大熵的统计机器翻译方法9。这是一个比基于信源信道的统计机器翻译方法更为一般化的一种方法,基于信源信道的方

    30、法可以看做是基于最大熵的方法的一个特例。基于最大熵的方法与基于信源信道的方法不同,没有语言模型和翻译模型的划分(虽然也可以将它们作为特征),因而是一种直接翻译模型。最大熵,又称最大熵原理,或者最大熵方法,是一种通用的统计建模的方法。我们这里简单介绍一下最大熵方法的基本思想3。对于一个随机事件,假设我们已经有了一组样例,我们希望建立一个统计模型,来模拟这个随机事件的分布。为此,我们就需要选择一组特征,使得我们得到的这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能的“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则

    31、的统计建模方法就是最大熵方法。假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), , hM(e,f)分别是e、f上的M个特征,1, , M是与这些特征分别对应的M个参数(权值),那么直接翻译概率可以用以下公式模拟(推导略):而对于给定的f,其最佳译文e可以用以下公式表示(推导略):可以看到,如果我们将两个特征分别取为log p(e)和log p(f|e),并取121,那么这个模型就等价于信源信道模型。在最大熵方法中最常用的做法是采用二值特征,可以用一种IIS算法进行参数训练。而在基于最大熵的统计机器翻译中,由于采用的特征是一种实数值特征,模型的参数不能使用通常IIS算法进行训练。为此Och, 2002提出了采用了一种区别性学习方法(Discriminative Training),其训练的优化准则为:这个判定准则是凸的,并且存在全局最优。Och介绍了他们在基于最大熵的统计机器翻译方法上的一系列实验9:1 首先将信源信道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译系统的性能并没有下降;2 调制参数1和2,系统性能有了较大提高;3 再依次引入其他一些特征,系统性能又有了更大的提高。他们引入的其他特征包括:1 句子长度特征:对于产生的每一个目标语言单词进行惩罚;2 附件的语言模型特征:一个基于类的语言


    注意事项

    本文(统计机器翻译综述中文自然语言处理开放平台中国科学院计算技术.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开