现代汉语语义词典的结构及应用精.docx
- 文档编号:13998834
- 上传时间:2023-06-19
- 格式:DOCX
- 页数:12
- 大小:24.74KB
现代汉语语义词典的结构及应用精.docx
《现代汉语语义词典的结构及应用精.docx》由会员分享,可在线阅读,更多相关《现代汉语语义词典的结构及应用精.docx(12页珍藏版)》请在冰点文库上搜索。
现代汉语语义词典的结构及应用精
“现代汉语语义词典”的结构及应用(精)
————————————————————————————————作者:
————————————————————————————————日期:
[收稿日期]2003-10-20
[作者简介]王惠,新加坡国立大学助教,博士,主要研究汉语词汇学、语义学和计算语言学;詹卫东,北京
大学副教授,博士,主要研究汉语语法、语义和计算语言学;俞士汶,北京大学教授,主要研究计算语言学。
3本研究得到国家973重点基础研究项目(G199803050724和(G199803050721资助,研究还得到北京大学陆俭明教授的大力支持,在此一并致谢。
“现代汉语语义词典”的结构及应用
3
王 惠1
詹卫东2
俞士汶
2
(1.新加坡国立大学中文系 新加坡 117570;2.北京大学 北京 100871
[摘要]“现代汉语语义词典(SKCC”是一个面向汉英机器翻译的大规模汉语语
义知识库,它以数据库文件形式收录616万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。
目的是为计算机语义自动分析、词义消歧等任务提供强有力的支持。
本文介绍这部语义词典的结构、内容,并以实例说明这部词典可有效地解决翻译系统中的词汇歧义(WSD问题。
[关键词]语义词典;词义消歧;词汇语义学;自然语言处理;中文
[中图分类号]H08[文献标识码]A[文章编号]100325397(20060120134208
StructureandApplicationof
TheSemanticKnowledge2baseofModernChinese
WangHui,ZhanWeidong,YuShiwen
Abstract:
TheSemanticKnowledge2baseofModernChinese(SKMCisalargescalebilingualsemanticresource.Itprovidesalargeamountofsemanticinformationsuchassemantichierarchyandcollocationfeaturesfor66539ChinesewordsandtheirEnglishcounterparts.ItsPOSandsemanticclassificationrepresentthelatestprogressinChineselanguageengineering.
Thedescriptionsofsemanticattributesarefairlythoroughand
comprehensive.ThemainworkinthispaperistointroducetheoutlineofSKMC,andestablishamulti2levelWordSenseDisambiguation(WSDmodelbasedonit.TheresultsindicatethattheSKMCiseffectiveforwordsensedisambiguationinChineseandarelikelytobeimportantforgeneralChineseNaturalLanguageProcessing(NLP.
Keywords:
SemanticKnowledge2base;WSD;Lexicalsemantics;NLP;Chinese
2006年2月第1期语言文字应用AppliedLinguisticsFeb.,2006No.1
一 前 言
在机器翻译系统及其他自然语言处理系统中,通常都有一部包括语义信息的电子词典。
为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识库。
不仅要进行系统的语义分类,而且要对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。
北京大学与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的“现代汉语语义词典”,目的是在语法分析的基础上,为计算机提供更深入的语义信息。
1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:
863230620320622。
作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得了重要的阶段性成果,完成419万名词、动词、形容词的语义分类,并在配价理论的基础上,简要描述了其语义搭配限制(王惠等,1998。
从2001年开始,“现代汉语语义词典”的再开发受到国家973重点基础研究发展规划项目的支持,对词语的语义分类以及配价属性描述重新进行填写或修订。
表1 语义词典规模
库名
词条
属性字段
名 词3752215时间词56715处所词18515方位词20415代 词23615动 词2114216形容词382715区别词75315状态词99715副 词99711数 词10911总 库
66539
8
二 内容概要
(一规模与结构
“现代汉语语义词典”收录了66539个通用领域内的实词,采用Foxpro810实现,共有12个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。
每个库文件都详细刻画了词语及其语义属性的二维关系。
总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。
每类词的特有属性填在各类词库中,如名词库设15个属性字段,动词库设16个属性字段,如此等等。
表2 名词库部分属性字段
词语词类
同形义项语义类配价数
参照体对象WORDECAT老虎n动物0tiger
N腿n11生物构件1人Π动物legN腿n22非生物构件
1用具legN意见n11认知2人实体|抽象物viewN意见
n
2
2
认知
2
人
人|事件
objection
N
(二词语的语义分类
国内外对汉语语义分类体系的研究已有不少成果,但由于各家分类体系的目的及应用范围不同,对同一事物可能有不同的定义与归类。
如“动物”在一个语义体系中分为“兽类、鸟类、
5
312006年第1期王 惠等:
“现代汉语语义词典”的结构及应用
鱼类、虫类、爬行类”,而在另一个体系中分为“脊椎动物、腔肠动物、软体动物”。
但这些分类体系都是基于自然科学或常识而独立于语法的。
在实际语言分析中,如何将这些语义知识与语法知识有机地结合起来是一件很困难的事情。
与这些基于常识的各种语义分类相比,“现代汉语语义词典”中语义分类的突出特点就是分类的深度与广度取决于语法分析的需要。
应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。
因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。
经过4年来的应用检验与研究,我们发现,对于中文信息处理来说,这种分类法是很有前途和实用价值的。
为了更彻底地贯彻这个原则,同时便于与Wordnet和“中文概念辞书(CCD”(于江生、俞士汶,2002兼容,与“知网(hownet”、《同义词词林》等已有的多种语义词典实现资源共享,我们在参照现有各家语义类的基础上,针对汉英机器翻译的需要,对语义词典(1998版的原分类体系作了较大的调整。
总的来说,新的语义分类更趋合理,其特点是对名词的分类相对较细,动词、形容词的分类较粗,只要能揭示出与名词性成分、动词性组合成分的不同组合类型即可。
目前我们已实际完成了616万词语的语义类划分与标注。
具体分类体系如下:
1.名词(Noun111 具体事物(entity11111 生物(organism1111111 人(person111111111 个人(individual:
职业 身份 关系 姓名
111111112 团体(group:
机构 人群1111112 动物(animal:
兽 鸟 鱼 昆虫 爬行动物1111113 植物(plant:
树 草 花 庄稼1111114 微生物(microbe:
细菌 病毒 霉菌11112 非生物(object
1111211 人工物(artifact:
建筑物 衣物 食物 药物 创作物 计算机软件 钱财
票据 证书 符号 材料 器具1111212 自然物(naturalobject:
天体 气象 地理1111213 排泄物(excrement:
汗 尿 粪便 奶水 眼泪1111214 外形(shape:
粉末 长方形 圆 窟窿 孔 洞 泡11113 构件(part1111311 身体构件(body2part:
头 脸 鼻子 嘴 耳朵 头发 血液 骨头1111312 非生物构件(object2part:
梁 屋檐 车闸 车筐112 抽象事物(abstraction11211 属性(attribute1121111 量化属性(measurable:
体积 面积 重量 质量 价格1121112 模糊属性112111211 人性(propertyofhuman:
胆量 勇气 脾气 作风112111212 事性(descriptionofevent:
境况 形势 状态 环节
631 语言文字应用2006年第1期
112111213 物性(propertyofobject:
性能 效用 品种 式样
1121113 颜色(color:
黑色 白色 浅色 素色
11212 信息(information:
话 言语 信件 口信 密码 声明 借口11213 领域(field:
社会 经济 法律 科学 艺术
11214 法规(rule:
法律 条约 协议 制度 规章 合同 条文11215 生理(physiologicalstate:
瘟疫 疾病 炎症 艾滋病
11216 心理特征(psychologicalfeature
1121611 情感(feelings:
态度 感情 爱情
1121612 意识(cognition:
意图 幻想 兴趣 主意 见解
11217 动机(motivation:
目的 原因 理由
113 过程(process
11311 事件(event:
学潮 球赛 晚会 课 早餐 战争 火灾11312 自然现象(naturalphenomenon
114 时间(time
11411 绝对时间(specifictime:
宋朝 三国 清代
11412 相对时间(relativetime:
昨天 当代 古代 今天
115 空间(space
11511 处所(location:
浙江 西湖 黄山 中国 亚洲
11512 方位(direction:
东南 前面 之间 途中 高空
21形容词(Adjective
211 事性值(descriptionofevent:
紧急 突然 困难 容易 错误 费时212 物性值(propertyofobject
21211 量化属性值(measurablevalue
2121111 浓度(concentration:
浓 稀薄
2121112 温度(temperature:
热 冷 凉爽
2121113 速度(speed:
快 慢
2121114 长度(length:
长 短
2121115 高度(height:
高 矮 低
2121116 宽度(width:
宽 窄
2121117 深度(depth:
深 浅
2121118 厚度(thickness:
厚 薄
2121119 硬度(rigidity:
硬 软
21211110 湿度(humidity:
潮湿 湿润 干燥
21211111 粗细(degreeoffinish:
粗 细
21211112 松紧(degreeoftightness:
松 紧
21211113 大小(size:
大 中 小
21211114 价值(value:
贵 便宜
21212 模糊属性值(unmeasurablevalue
2121211 视感(vision:
亮 醒目 清晰 混浊731
2006年第1期王 惠等:
“现代汉语语义词典”的结构及应用
2121212 触感(tactility:
紧 松 粗糙 滑 柔
2121213 音质(tone:
响亮 低沉 刺耳
2121214 味道(taste:
酸 甜 苦 辣 可口2121215 性质(quality:
新 旧 真 假 好 坏 强 弱2121216 内容(content:
空洞 晦涩 清楚 浅显2121217 外形(shape:
方 圆 尖21213 颜色(color:
红 黄 蓝 绿 鲜艳213 人性值(propertyofhuman
21311 年龄(age:
年轻 幼小 老21312 品格(character:
善良 博学 幼稚 优雅21313 关系(relation:
亲密 疏远 热情 冷淡21314 境况(condition:
繁忙 贫穷 危险 疲劳214 空间值(propertyofspace21411 一维值(onedimension:
远 近21412 二维值(twodimensions:
平 斜 弯
21412 三维值(threedimensions:
拥挤 杂乱 整齐 满 壮阔215 时间值(propertyoftime:
古老 久远 短暂 早 晚3.动词(Verb
311 静态关系(state:
是 有 等于 包括312 心理活动(emotionΠcognition:
喜欢 尊敬 反对 同意 怀疑 思考 判断313 动态行为(event31311 变化(change:
死 病 下降 长高 缩小 变暗
31312 气象(weather:
下雨 刮风 打雷 起雾31313 身体活动(bodilycareandfunctions:
蹬 跳 推 笑 咳嗽 游泳31314 五官感觉(perception:
看见 听到 闻着 品尝31315 消耗(consumption:
吃 喝 饮31316 位移(motion:
跑 走 散步 飞 过来 回去 拉来31317 创造(creation:
制作 画 炒 写 创建 修筑31318 接触(contact:
触摸 撞击 打中 系 挖掘31319 领属转移(possession:
买 卖 赠送 给 转让 借
313110 信息交流(communication:
告诉 询问 请求 转达 叮嘱 说313111 比赛(competition:
竞赛 赛跑 打仗 摔跤 辩论313112 社会活动(socialbehavior:
改革 调价 开会 联欢313113 其他行为(otherevent(三词语的语义属性描写
为了进一步提高机器翻译系统的性能,本词典在语义分类的基础上,进一步详细刻画了每个词的配价数及其在上下文中的语义搭配限制,见表3。
831 语言文字应用2006年第1期
2006年第1期王 惠等“现代汉语语义词典”:
的结构及应用表3 现代汉语语义词典动词库的属性字段1 39字段名词语拼音词类子类兼类1~4个字的词语字段值填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中5”“表示轻声。
如:
常识”“的全拼音是“chang2shi2”“尺子”,的全拼音是chi3zi5”“。
填词语所属词类的代码。
如:
名词填n”动词填v”形容词填a”“,“,“。
填词语所属词类的子类代码。
如:
名词性成语填IN”动词性习用语填LV”“,“。
填该词语兼属的词类代码,如:
名词“锁”的兼类填v”“。
对于字形、词类都相同但是应算不同词的情况,在本字段中填上字母A,B,C,如“抄近道”“抄”的与“抄作业”“抄”的。
为了提高处理效率,也用A,B,C等标识同字同类不同音的情况,如表示“加在一起”“合计(he2ji4”的与表示“盘算、磋商”“合计(he2ji5”的。
对于同一个词的不同义项,填上数字1,2,3。
如“菜很清淡”“清淡”中的在本字段填1”““生意清,淡”“清淡”“2”的则填。
((填写词语的简明释义。
如:
词典中收录两个“天才”一个指人“一位天才”,一个指,“智慧”很有“天才”,就在本字段分别填上“人”“智慧”和。
同形义项释义语义类填写词语的语义类别名称。
如“校长”“身份”填“刀”“用具”,填“是”“静态关系”,填“喜欢”“心,填理活动”“打雷”“气象”,填。
可以不止填一个类别名称,不同的名称之间用|”“隔开,如“青菜”填“植物|食物”。
填写词语在上下文中所能搭配的名词数目,取值范围为0、、、。
如“大、123:
儿子、咳嗽”仅能跟一个名词发生关联,如“声音大、老王的儿子、小李咳嗽”,那么这些词的配价数就为1。
等“热情、意见、吃”能跟两个名词发生关联,配价数就是2。
动词“给”可以跟三个体词发生关联,它的配价数即为3。
动词“例如”不跟任何成分搭配,它的配价数就是0。
指动作行为的发出者或性状的承当者。
如“逃跑”在本字段填“人类|动物”“刮倒”“气象”,填“死”,填“生物”“红”,在本字段填“具体事物”。
指动作行为所涉及的直接对象或性状的关涉对象。
如“吃”在本字段填“食物”“画”“作品”,填“眼,熟”“具体事物”填“有利”“人类|事物”,填。
事件中的受益者或受损者。
如“给”在本字段填“人类”“送”“人类”,也填。
填写词语对应的英语译文,如“安静”在本字段填quiet”““脏乱”“dirtyandmessy”,填。
填写词语的英语译文的词性代码,或短语组成结构,如“安静”在本字段填A”““脏乱”“!
A+,则填(C+!
A”!
表示中心词。
填写词语某些用法的简明示例。
配价数主体客体与事WORDECAT备注三 应用价值“现代汉语语义词典”中的词义信息在汉语分析的各个层面,包括多义词义项判断、短语结构层次和结构关系判定以及成分之间语义关系的确定等等,都能起到重要的作用。
在汉英机器翻译中,利用词义信息至少有两个显著作用:
140语言文字应用2006年第1期(1在源语言句法分析过程中,排除一些歧义结构,有助于得到正确的句法结构;(2在目标语生成过程中,进行词义消歧,在多义词的不同译法中挑选一个最合适的,提高译文质量。
前者已经有不少论述(王惠,2004;詹卫东、刘群,1997,这里不再赘述,本节将重点放在后者上,以具体实例介绍“现代汉语语义词典”在汉英机器翻译系统中词义消歧方面的应用。
词义消歧的第一步是确定哪些词是多义词。
语义词典提供了非常简单的判断方法:
只要“义项”“同形”“兼类”3个字段中的任何一个填有内容,就说明当前的词条是一个多义词,需这要进行词义消歧。
如果一个词的多个义项属于不同的语义类,那么,它们在句子中所受到的组合限制也相应地不同。
对动词来说,主要表现在动作的发出者、动作对象的差异上;对形容词而言,则是修饰对象的语义类不同。
“现代汉语语义词典”对这些都作了具体描述。
如:
表4 现代汉语语义词典中的多义形容词词语清淡清淡词类aa释义(气味清而淡义项12语义类气味境况主体食物|植物“生意”WORDlightslack营业数额少 如果遇到以下经过切分、标注的文本:
[1]清淡Π的Π荷花Π香气Πaunn[2]农忙时Π进城Π的Π人Π不Π多Π,生意Π比较Π清淡Π。
tvundanda句[1]中“清淡”后面的名词是“荷花”属于,“植物”;句[2]中类“清淡”的修饰对象是“生意”。
根据“主体”字段的信息,计算机就可准确地判断出这两个“清淡”属于不同的语义类,前一个属于义项1,应译为light”后一个只能与“,“生意”搭配,则译为slack”“。
经过词类与语义类两步筛选,可以完成绝大部分的汉语多义词消歧。
但还有少数多义词,其内部各义项的词类、语义类均相同,如:
表5 “找”动词不同义项的语义搭配词语找找词类vv同形AB释义寻找退还语义类对待对待主体人人客体具体事物“3钱”与事WORDlookfor备注~材料~钱人givechange 由表5可见“寻找”“找”,的在句子中只带一个宾语,而且这个宾语只能由表示“具体事物”的名词充当,而“找钱”“找”的后面可以跟两个NP,一个仅限于“钱”另一个则必须属于语义类,“人”。
即:
找A右组合:
~+名词(具体事物“狗、自行车、房子”……(找B右组合:
~+名词Π人称代词(人“主任、、……+名词“钱”小李你”根据这个搭配特征,计算机可以正确判断出下面例句中“找”的词义:
[1]我们Π出去Π再Π找Π一Π块Π实验地Π。
rvdvmqn[2]营业员Π找Π我Π20Π元Π钱Π。
nvrmqn例[1]中的“找”后面只有一个名词“试验地”属于,“具体事物”因而,是,“找A”应译为,“lookfor”例[2]中的;“找”后面有一个人称代词“我”还有一个名词,“钱”显然符合,“找B”的组合条件,应选择givechange”“作为译文输出。
2006年第1期王 惠等“现代汉语语义词典”:
的结构及应用1 41四 结语作为综合语言知识库的一个组成部分“现代汉语语义词典”,不仅可以应用于机器翻译,而且还可以在多种NLP系统(如自然语言接口、文献检索、信息自动提取、语音识别与合成、文本校对、语料库加工等的语义分析中发挥重要作用。
同时,对于促进汉语词汇与语义学研究、开展汉语词义定量分析等也有很大的价值。
目前,本项研究已取得了可观的阶段性成果,词典规模扩大到了616万词语,质量也有了显著提高,并已在一个汉英机器翻译系统中得到实际应用。
但语义词典的开发毕竟是一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代汉语 语义 词典 结构 应用