综述话题检测与跟踪的评测及研究综述.docx
- 文档编号:12965838
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:25
- 大小:39.44KB
综述话题检测与跟踪的评测及研究综述.docx
《综述话题检测与跟踪的评测及研究综述.docx》由会员分享,可在线阅读,更多相关《综述话题检测与跟踪的评测及研究综述.docx(25页珍藏版)》请在冰点文库上搜索。
综述话题检测与跟踪的评测及研究综述
[综述]话题检测与跟踪的评测及研究综述
摘 要:
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。
自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。
由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。
本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。
关键词:
计算机应用;中文信息处理;综述;话题检测与跟踪;自然语言处理;事件;新闻报道
中国分类号:
TP391 文献标识码:
A
1 引言
话题检测与跟踪(TopicDetectionalldTrack-ing,简写为TDT)起源于早期面向事件的检测与跟踪(EventDetectionandTracking,简写为EDT)。
TDT面向多语言文本和语音形式的新闻报道,主要从事报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展以及跨语言检测与跟踪等相关任务。
与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。
TDT的任务以及评测体系是由美国国防高级研究计划局(DARPA)、马萨诸塞大学(UniversityofMassachusetts)、卡耐基一梅隆大学(CarnegieMellonUniversity)和DragonSystems公司联合制定和设计完成的。
来自这些单位的学者历经一年的时间对TDT进行了前瞻性的研究(1996~1997,Pilotstudy),包括检验当前普遍应用于信息检索(Infor-marionRetrieval,简写为IR)和信息抽取(InformationExtraction,简写为IE)等领域的技术是否能够有效解决TDT问题,以及鉴定和设计统一标准的评测规范。
虽然大部分IR和IE技术都可以应用于早期的EDT,但过高的误检率说明该领域仍然具备很大的探索空间,尤其对于拓展后的TDT则暴露了更多现有技术的缺陷。
因此探索更适合于TDT任务的创新性研究对自然语言领域的发展具有重要意义。
TDT涉及两类最主要的信息获取问题,即信息的检测与集成、信息的采集与跟踪。
这两方面的研究课题分别与目前信息检索(IR)和信息过滤(In-formationFiltering,简写为IF)对应的问题非常相似。
在IR系统中,用户通过动态地定义需求(Query),从海量信息中检索满足自己当前兴趣的信息,信息以相关度为尺度进行组织、集成与反馈;而在IF系统中,用户通过定义静态的用户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重于跟踪信息的时空进程并将最新的相关信息反馈给用户。
基于这些相似点,许多基于IR和IF的信息获取技术都相应地应用于TDT并获得了良好的效果,尤其近期逐渐发展起来的个性化信息检索技术和自适应信息过滤技术,都与TDT研究具有更深层次的共性。
但是,TDT在许多方面与IR和IF存在差异,比如对于TDT的新事件检测任务(NewEventDetection,简称为NED),系统欠缺任何话题的先验知识,TDT系统必须在对话题毫不了解的情况下,自主地进行识别与检测,这一点与具备了背景知识或先验需求的IR系统截然不同。
同时,话题检测系统通常需要维护固定的存储空间保存曾经发生过的话题线索,从而作为衡量新话题的背景信息。
对于话题跟踪而言,话题对应的“Query”是隐含给定的,构成话题的是若干(1~4篇)相关报道样本,这与具备明确需求(Profile)的IF问题也不相同。
因此,面向IR和IF的相关方法更多地作为TDT的基础研究,而不能完全解决TDT的相关问题。
本文简要介绍TDT任务与评测的相关知识,重点论述和分析近期国内外在该领域的相关研究及其相互关系,并在篇尾展望TDT领域的未来发展趋势。
本文组织结构如下,第二章和第三章分别介绍TDT使用的语料和评价体系;第四章简要介绍话题的含义及其与事件的区别,并概述TDT任务的定义与要求;第五章着重探讨TDT研究的层次关系及体系结构;第六章和第七章分别回顾TDT国内和国外的研究现状;第八章概述TDT领域的研究趋势;第九章结论。
2TDT语料
LDC为TDT方向的研究提供了五期语料,分别是TDT预研语料、TDT2、TDT3、TDT4和TDT5。
TDT语料是选自大量新闻媒体的多语言新闻报道集合。
其中,TDT5只包含文本形式的新闻报道,而其他语料同时包含文本和广播两种形式的新闻报道。
本章简要介绍各语料的组成、描述及其区别。
2.1 语料组成
TDT评测最早使用的语料是TDT预研语料(TDTpilotcorpus,简称TDT-Pilot)。
TDT-Pilot收集了1994年7月1日到1995年6月30日之间约16000篇新闻报道,主要来自路透社新闻专线和CNN新闻广播的翻录文本。
TDT-Pilot标注过程没有涉及话题的定义,而是由标注人员从所有语料中人工识别涉及各种领域的25个事件作为检测与跟踪对象。
TDT2收集了1998年前六个月的中英文两种语言形式的新闻报道。
其中,LDC人工标注了200个英文话题和20个中文话题。
TDT3收集了1998年10月到12月中文、英文和阿拉伯文三种语言的新闻报道。
其中,LDC对120个中文和英文话题进行了人工标注,并选择部分话题采用阿拉伯文进行标注。
TDT4收集了2000年10月到2001年1月英文、中文和阿拉伯文三种语言的新闻报道。
其中,LDC分别采用三种语言对80个话题进行人工标注。
TDT5收集了2003年4月到9月的英文、中文和阿拉伯文三种语言的新闻报道。
LDC对250个话题进行了人工标注,其中25%的话题同时具有三种语言的表示形式,其他话题则以相同的比例均匀地分配给三种语言分别进行标注。
此外,TDT5中每种语言的话题来自该语言当地媒体的报道。
LDC根据报道与话题的相关性对所有语料进行标注。
其区别在于TDT2与TDT3采用三类标注形式,而TDT4与TDT5采用两种标注形式。
前者使用“YES”、“BRIEF”和“N0”作为报道与话题相关程度的标识。
当报道论述的内容与话题绝对相关时标注为“YES”,而报道与话题相关的内容低于本身的10%则标注为“BRIEF”,否则标注为“NO”。
TDT4与TDT5只采用相关“YES”和不相关“No”对报道与话题的相关性进行标注。
其中,相关报道不仅需要相关于话题的核心内容,同时需要包含话题的部分信息。
但是,报道与话题相关的内容并没有TDT2和TDT3中要求的长短之分,只要存在相关信息都被标注为“YES”。
2.2 语料描述方式
TDT语料包含两种媒体形式的数据流:
文本和广播。
区别于单一表示形式的文本类新闻报道,LDC为广播类新闻语料提供了三种信息描述方式:
(1)数据信号的音频采集;
(2)对音频的人工识别与记录;
(3)通过自动语音识别系统(AutomaticSpeechRecognition,简称为ASR)识别和记录音频。
此外,广播类语料不仅包含新闻形式的报道,还包含部分非新闻类报道。
其中关于商业贸易的报道以及目录形式的体育比分和财经数据都属于非新闻类语料。
因此,LDC为广播类语料额外提供了三种标注形式:
新闻报道(NEWS)、多元报道(MISCEL-LANEOUS)和未转录报道(UNTRANSCRIBED)。
其中,没有经过识别与记录的广播报道被标注为UNTRANSCRIBED。
如前文所述,TDT语料主要包含三种语言形式:
中文、英文和阿拉伯文。
对于中文和阿拉伯文,LDC提供了两种不同的描述方式:
(1)本地语言描述形式,即报道采用未经过翻译的本地语言。
其中包括文本形式(如新闻专线)的描述,也包括采用人工或ASR对本地广播的识别与翻录;
(2)采用机器翻译自动地将中文或阿拉伯文报道翻译成英文形式。
3TDT评测
NIST为TDT建立了完整的评测体系。
由于各个研究方向针对的问题不同以及历届评测语料的标注方案存在差异,因此TDT不同任务之间的评测方法、参数以及步骤不尽相同。
但总体而言,评测标准都是建立在检验系统漏检率和误检率的基础之上。
TDT评测公式定义如下:
CDet=CMissPMissPtarget+CFAPFAPPnon-target
(1)
其中,cMiss和CFA分别代表漏检率和错检率的代价系数;PMiss和PFA分别是系统漏检和错检的条件概率;Ptarget和Pnon-target是先验目标概率(Pnon-target=1-Ptarget);CDet是综合了系统漏检率与误检率得到的性能损耗代价。
检验TDT系统性能时,评测体系可以根据阈值或平滑系数的变化绘制检测错误权衡图(DetectionErrorTradeoff,简称DET曲线),如图1是关联性检测任务中在线概念模型(OnlineConceptualModel,简称OCM)与相关性模型(RelevanceModel,简称RM)对比实验得到的一组DET曲线图。
其横轴表示系统误检率;纵轴代表漏检率。
因此,根据评测公式的定义,越靠近DET坐标系左下角的曲线对应的系统性能越好,即漏检和错检的综合代价相对较小。
评价TDT系统性能时常采用CDet的规范化表示(CDet)Nom,其定义如下:
针对TDT涉及的语料及评测体系,本文提供了相应资源、指南及工具的获取方法和地址,其主要来源包括美国国家标准与技术研究院(简称NIST)和语言数据联盟(简称LDC)。
其中TDT语料可通过光盘邮购和在线LTP下载两种方式获取,具体地址如表1所示。
4TDT话题定义及任务
4.1 话题定义
最初的TDT研究(TDTPilot,1996~1997)将话题定义为“事件”。
事件是发生在特定时间和地点的事情。
比如,“2001年9月11日针对纽约世贸大厦的恐怖袭击”是一个事件,而泛指的恐怖袭击则不是。
此外,事件包括可预期事件(如“政府选举”)和突发事件(如“飞机失事”)。
从TDT2开始,话题的定义有了更加广泛的含义,不仅包含了由最初事件引起或导致发生的后续事件,同时还包含了与其直接相关的其他事件或活动。
直到TDT5,话题都一直沿用如下定义。
话题定义:
一个话题由一个种子事件或活动以及与其直接相关的事件或活动组成。
根据话题的定义,一篇报道只要论述的事件或活动与一个话题的种子事件有着直接的联系,那么这篇报道就与该话题相关,比如关于“飞机坠毁”与“坠毁殉难者葬礼”的报道都可以认为与坠毁事件直接相关,因此可以作为该话题的一个组成部分。
但话题的外延并不是无限的,比如关于“联邦航空局通过调查飞机坠毁的原因修改航空条例”的报道与飞机坠毁的话题并不相关。
4.2TDT任务
NIST为TDT研究设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。
4.2.1 报道切分任务
报道切分(StorySegmentationTask,简称SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。
比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。
SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:
一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。
4.2.2 话题跟踪任务
话题跟踪(TopicTrackingTask,简称TT)的主要任务是跟踪已知话题的后续报道。
其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。
通常话题跟踪开始之前,NIST为每一个待测话题提供1至4篇相关报道对其进行描述。
同时NIST还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。
在此基础上,TT逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。
4.2.3 话题检测任务
话题检测(TopicDetectionTask,简称TD)的主要任务是检测和组织系统预先未知的话题,TD的特点在于系统欠缺话题的先验知识。
因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。
换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。
4.2.4 首次报道检测任务
在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First-StoryDetectionTask,简称FSD)就是面向这种应用产生的。
FSD的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。
大体上,FSD与TD面向的问题基本类似,但是FSD输出的是一篇报道,而TD输出的是一类相关于某一话题的报道集合,此外,FSD与早期TDTPilot中的在线检测任务(On-lineDetection)也具备同样的共性。
4.2.5 关联检测任务
关联检测(LinkDetectionTask,简称LDT)的主要任务是裁决两篇报道是否论述同一个话题。
与TD类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。
因此,LDT系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。
LDT研究可以广泛地作为TDT中其他各项任务的辅助研究,比如TD与TT等等。
随着话题检测与跟踪研究的逐步深入与发展,历次NIST举行的TDT评测都对该领域内的各项子课题提出了新的设想与方向,因此相应的评测任务也随之有所更改。
比如,TDT2004撤销了报道切分任务(SST),其原因不仅在于评测语料TDT5中没有包含广播类新闻报道,同时也由于应用中的大部分实例片断本身具备了良好的可区分性。
此外,TDT2004将首次报道检测任务(FSD)转换成新事件检测任务。
虽然TDT2004对NED与FSD给与了相同的定义,但本文将这两者定义为目的不同但相互依存的任务。
FSD与NED的区别在于前者注重鉴别事件初次报道的时空位置,后者除此之外还需要检测更多相关于事件的报道并进行汇总。
此外,TDT2004首次提出了有指导的自适应话题跟踪(AdaptiveTopicTracking,简称ATT)和层次话题检测(HierarchicalTopicDetection,简称HTD)概念。
5 TDT研究体系
自1996年建立TDT研究雏形以来,历次评测都为TDT研究领域内出现的新问题设立相应的评测任务,截止到TDT2004为止,NIST提供的所有评测任务基本上覆盖了TDT领域内大部分研究课题。
TDT的研究方向主要分为五个组成部分,即报道切分、报道关联性检测、话题检测与跟踪以及针对各项任务的跨语言技术。
其中每一项研究都不是孤立存在,而是与其他研究相互依存与辅助。
比如,报道切分是一项基础性研究,实际应用中的TDT系统必须首先保证新闻报道流得到有效切分,才能进一步完成后续的检测与跟踪任务;报道关联性检测的目的在于检验两篇报道是否论述同一话题,而话题检测与跟踪的本原问题恰是检验话题与报道之间,或报道与报道之间的相关性,因此关联性检测是承载TDT其他各项任务的基本平台,也是性能保证的前提条件;话题跟踪系统的主要任务是跟踪特定话题后续的相关报道,而话题检测系统则在大规模新闻报道流中识别各种未知的话题,因此话题检测实质上为跟踪系统提供了先验的话题模型,而话题跟踪则辅助检测系统完善对话题整体轮廓的描述。
此外,TDT语料以及实际应用中的新闻资源都包含多种语言形式,因此各项TDT研究任务都需要涉及相应的跨语言技术。
总而言之,TDT研究框架下的各项任务互相关联并统一为有机整体。
根据实际应用的需要,TDT各项任务还可以进一步划分成面向不同问题的子课题,相对完整的TDT研究体系如图2所示。
于内容的报道边界识别。
前者的识别对象是未经过翻录的广播,根据语音信号的分布规律划分报道边界;后者则将广播转录为文本形式,根据报道之间主题内容的差异估计报道边界。
语音识别系统通常可以相对准确地识别边界,但是边界之间包含的信息却不一定准确地指向一个报道,往往其中包含多个报道。
而基于内容的切分系统虽然可以根据话题的内涵识别出不同报道,但报道与报道之间边界的划分相对模糊。
因此,如何既能公正地区分报道又能准确地定位边界是SST任务不容忽视的两个主要课题。
早期TDT中的话题检测任务(简写为TD)主要包含首次报道检测(简写为FSD)和在线话题检测(简写为OTD)两项子课题。
FSD要求检测系统能够准确定位新话题出现的最初报道,OTD则不仅要求系统识别最新话题,同时需要收集该话题的所有相关报道。
FSD可以看作OTD的前提:
通常,新话题的首次报道构成该话题的最初描述,后续报道相关性的裁决都以该报道为对照标准,即使随着相关报道逐渐增多,话题模型的质心相应发生漂移,但是话题的主线并没有脱离首次报道描述的内涵。
相反,OTD是对FSD的补充:
新话题不仅包含对其进行报道的第一篇文本,同时也包含后续与之直接相关的外延,只有综合所有相关报道才能完整地勾勒出对应的话题。
近期,TD研究领域得到进一步拓展。
其中,TDT2004设置了新事件检测(简称为NED)任务,NED要求检测系统能够针对具备时间顺序的新闻语料及时地检测出最新发生的事件。
NED与FSD面向的问题非常类似,区别在于检测对象从话题具体化为事件,其原因是某些话题跳跃式出现的特性,即话题在消失一段时间后重现并起源于一个新的事件。
比如关于“恐怖袭击”的话题包括2001年“9?
11”自杀式炸弹袭击;2002年印度尼西亚的巴厘岛惨案和2004年马德里系列爆炸案等。
其中,历次恐怖袭击都是一个种子事件并伴随大量相关报道,因此话题在不同时间由不同事件多次引发,从而成跳跃式地出现。
话题的这一特性引起了关于TD研究的两种思考,即怎样区分不同事件引发的相同话题;是否当前被检测到的话题在历史上从未出现过。
NED就是面向第一种思考提出的检测任务,区别于传统的FSD系统,NED更关注特定时间与地点发生的最新事件。
此外,YimingYang提出一种回顾式话题检测(简称为RED)的研究方向,目的在于回顾历史上所有报道,检测与话题相关的所有事件。
由此,NED与RED补充了TD研究中出现的上述两项课题。
TDT2004设置的另外一项新任务是层次话题检测(简称为HTD),目的在于区分报道内容在层次上的差异,从而建立结构化的话题模型。
总体而言,话题检测研究的发展逐步面向结构化和层次化,TD系统不仅需要善于识别话题和收集相关报道,同时需要有效分析话题内部的层次结构、区分不同组成部分并挖掘外界的相关历史信息。
区别于未知话题识别的TD系统,话题跟踪(简称为TT)的主要任务在于跟踪已知话题的后续报道。
通常,突发事件的产生会引发大量相关报道,随着事件受关注程度的降低,相应报道逐渐衰减直至消失。
在这个过程中,话题在不同历史阶段的论述重心将有所漂移。
比如,2001年“9?
11”事件发生的最初一段时间内,大量报道主要集中于事件本身,包括“客机撞击世贸”、“世贸大厦损毁”以及伤亡情况统计;随着事态的发展,相关报道的重心逐渐转移到“灾后处理”、“事件调查”和“美国民众的反应”;最后话题集中于“恐怖主义”、“反恐战争”以及“世界范围内的反恐政策”等等。
因此,一个完整的话题不仅包括最初事件的相关报道,还涉及后续相对拓展的外延,TT任务就是面向这一问题提出的。
TDT2004设置了有指导的自适应话题跟踪任务(ATT),其与传统TT系统的区别在于嵌入了自学习机制,可以使跟踪系统实时地依据话题的发展自动更新话题模型,从而有效追踪话题的报道趋势。
6 TDT国外研究现状
6.1 关联检测(LDT)
LDT的主要任务是检测随机选择的两篇报道是否论述同一话题。
与其他TDT任务不同的是LDT研究并没有直接对应的实际应用,但是它对其他TDT研究起到的辅助作用却是无法忽视的。
比如,新事件检测任务(NED)中,NED系统可以通过LDT鉴定候选报道与每个先验报道之间的相关性,从而判断候选报道是否论述了一个新话题,或者相关于先验报道隶属的旧话题。
就传统基于概率统计的TDT研究而言,报道与话题或者报道与报道之间的相关性,都是通过检验两者之间共有特征的覆盖比例进行评判。
换言之,两者共有的特征越多,那么它们相关的可能性越大。
因此,大部分针对LDT的研究都将问题的重心集中于文本描述以及特征选择。
JamesAllan和Schultz采用向量空间模型(简称为VSM)描述报道的特征空间,根据特征在文本中的概率分布估计权重,利用余弦夹角衡量报道之间的相似性。
此外,LeekEsn和Yamron将参与检测的两篇报道分别看作一个话题和一篇报道,采用语言模型(简称为LM)描述报道产生于话题的概率,并通过调换两篇报道的角色分别从两个方向估计它们的产生概率,最终的相关性则依据这两种概率分布,采用Kullback-LeiblerDivergence(简称为KLD)算法综合得出。
VSM和LM存在的主要缺陷在于特征空间的数据稀疏性,通常解决这一问题的方法是数据平滑技术,但是平滑得到的特征权重往往被泛化,从而无法有效描述文本内容上的差异。
另一种解决数据稀疏的方法是特征扩展技术。
在信息检索中,特征扩展主要应用于Query扩展,其核心思想是将Query中的特征扩展为同义或直接相关的其他特征,从而降低稀疏性。
Ponte和Croft采用向量空间模型,并基于特征上下文的扩展技术执行LDC任务,其选择待测报道中权重较大的特征作为扩展对象,通过围绕特征经常出现的上下文信息对其进行扩展,特征空间由原始和扩展的特征项共同组合而成。
扩展技术不仅有助于解决数据稀疏问题,同时可以辅助LDC系统削弱特征的歧义性。
6.2 话题跟踪(TT)
6.2.1 传统话题跟踪(TTT)
传统话题跟踪(TraditionalTopicTracking,简写为TTT)主要包括基于知识和基于统计的两种研究趋势。
前者的核心问题是分析报道内容之间的关联与继承关系,通过特定的领域知识将相关报道串联成一体。
后者则根据特征的概率分布,采用统计策略裁决报道与话题模型的相关性。
基于知识的TTT研究中,比较有代表性的方法是Watanabe面向日本语新闻广播开发的话题跟踪系统。
Watanabe通过形如“正如我所提到的……”、“正如我所报道的……”和“正如近期发生的……”等领域知识,检测论述同一话题的相关报道。
该方法能够显著提高特定知识领域的话题跟踪性能。
基于统计策略的TTT研究则主要借鉴于基于内容的信息过滤(简称为IF)。
如前文所述,IF面向静态需求从动态的信息流中识别和获取相关知识,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 综述 话题 检测 跟踪 评测 研究