面向微博搜索的时间感知的混合语言模型.docx
- 文档编号:6557069
- 上传时间:2023-05-10
- 格式:DOCX
- 页数:21
- 大小:77.99KB
面向微博搜索的时间感知的混合语言模型.docx
《面向微博搜索的时间感知的混合语言模型.docx》由会员分享,可在线阅读,更多相关《面向微博搜索的时间感知的混合语言模型.docx(21页珍藏版)》请在冰点文库上搜索。
面向微博搜索的时间感知的混合语言模型
第37卷第1期2014年1月
Vol.37No.1Jan.2014
计算机学报CHINESEJOURNALOFCOMPUTERS
面向微博搜索的时间感知的混合语言模型
卫冰洁u’2)王斌”
1〕(中国科学院计算技术研究所前瞻研究实验室北京100190)
2)(国家计算机网络应急技术处理协调中心北京100029)
摘要已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于“时间越新文档越重要”这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot丁ime),并提出新假设“越靠近热门时刻,文档越重要”基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TRECMicroblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.
关键词时间感知;微博搜索;语言模型;信息检索;社交网络中图法分类号TP391DOI号10.3724/SP.J.1016.2014.00229
Time-AwareMixedLanguageModelforMicroblogSearch
WEIBing-Jie1),)WANGBin1
1;)^Advanced.CompuiingResearchLaboratory’TnsLiLuLeofCompuLingTechnology’ChineseAcademyofSciences,Beijing100190)2)(NaionalComputerNetworkEmergencyResponseTechnicalTeam/CoordincUionCenterofChina’Beijing100029)
AbstractPreviousworkhasshownthattimeisimportantforinformationretrievaltasks,especiallyforMicroblogsearch.Mostexistingworkregardedtimeasthedocument'priorinformationunderlanguagemodelframeworkwithquerydependentorindependentstyle.Asimplehypothesisintheseworkis“henewerthedocument’themoreimportant,,.However,byanalyzingthequeriesfromTRECMicroblogTrack,wefoundthat,formanyqueriesmostofrelevantdocumentswerenotpublishedatthenewesttimeperiod.Thesepeakpointsweredefinedashottimeinourpaper.Differentquerieshavedifferenthottimepoints.Itsounds“heclosertothehottimepointthedocumentismoreimportant,,.Basedontheabovenewhypothesis,thispaperproposedfourmodelsbasedonhottimepoints(HTLMs).Amongthesemodels,queryindependentanddependentmodelsareregardedasbackgroundanddistinctiveinformationrespectively,andthenamixedtimelanguagemodelisproposedusingsmoothingtechnique(MTLM).ExperimentalresultsonTRECMicroblogcorpusshowthatHTLMmodelsoutperformedcurrentmodelsandthemixedmodelcanfurtherimprovetheretrievaleffectiveness.
Keywordstime-aware;microblogsearch;languagemodel;informationretrieval;socialnetworks
收稿日期:
2012-10-21;最终修改稿收到日期:
2013-08-19.本课题得到国家自然科学基金(61070111)和中国科学院先导专项课题(XDA06030200)资助.卫冰洁,女,1987年生,博士,中级工程师,主要研究方向为微博检索.E-mail:
weibingjiel986@163.com.王斌’男,972年生,博士,副研究员,主要研究方向为信息检索、自然语言处理.
1引言
微博(Microblog),是一种允许用户即时更新并公开发布短文本(通常少于140个字)的全新信息传递形式.现在已存在多个微博网站,如Twitter、新浪微博等.由于微博实时更新的特点,微博网站也成为了越来越多的新闻的发源地.在微博海量数据的背景下,用户搜索需求不断增加,针对微博搜索的研宄也逐渐展开,也成为了近年来的研宄热点.
Teevan和Ramage等人[1]通过对比了witter查询和Web查询,指出用户进行微博检索时的搜索意图均是跟时间有关的,可将其称之为时间敏感查询.但是传统信息检索无法很好解决这类型查询的搜索需求,因此将传统检索模型和时间进行结合来解决微博搜索问题的需求迫在眉睫.但是,如何将时间信息有效地融入检索模型中存在很多难点,比如哪些时间信息对于检索效果提高有效、采用何种方式将时间与检索模型结合等等.对于上述难点在信息检索领域己存在很多相关研宄[2—5].本文的研宄问题是在统计语言检索模型的基础上,如何引入时间信息而使其适应微博搜索.
在统计语言检索模型的背景下,将时间与文档的关系作为文档先验是一种利用时间信息的方法,目前主要有两种做法:
跟查询无关[2]和跟查询有关[].Li和Croft[2]假设时间越新的文档被用户希望阅读的概率越高,于是定义文档的先验是以文档时间为输入的指数分布,通过人工指定指数分布参数将时间因素融入统计语言检索模型.这种做法在实验中取得了较好的效果.Efron和Golovchinsky[5]扩展了Li和Croft[2]的工作,提出基于查询的时间语言模型.他们认为在不同的查询背景下,指数分布参数是不同的.文章提出了参数计算的方法,并在TREC数据和微博数据上取得了更优的结果.
总结前人的工作不难发现,这两类模型均假设在给定时间敏感的查询下,文档的时间越新越重要.但是这种假设与真实情况并不吻合.实际上,不同的时间敏感查询具有不同的相关文档分布高峰区.以TREC2011MicroBlog评测的查询为例,从在第3节的图1可以看出,并不是所有查询符合文档越新越重要这个假设前提.同时,文献[2]也提到了这一现象.本文将查询相关文档分布的高峰时刻称为该查询的热门时刻,提出了基于查询热门时刻的4个系列语言模型(简称为HTLMs),并通过实验验证相对于查询似然模型QLM,该系列模型在MAP和P@30上分别最高提高2%和3.5%,同时在P@30指标上比前人工作提高3.8%.同时,根据模型是否与查询有关,之前的工作可分为两类,一类是查询无关模型,一类是查询有关模型.基于这两类模型分别代表文档的文档背景时间信息和独立时间信息,运用平滑思想,提出混合时间语言模型(MTLM),实验结果表明,混合模型相对于单一模型,可以进一步提高检索的效果.
本文第2节介绍相关工作;第3节介绍时间感知的混合语言模型,提出HTLM系列模型和混合语言模型MTLM;第4节给出实验和结果分析;第5节是对本文工作的总结和展望.
2相关工作
统计语言检索模型[6—8]是具有代表性的三大信息检索模型之一,是本文的研宄基础模型.基于语言模型理论的检索模型之一是查询似然模型(QueryLikelihoodModel,QLM)[].设zv表示词项,V表示词项的集合,Q表示查询,D表示文档,MD表示根据D构建的语言模型,C表示所有文档的集合.
根据贝叶斯公式,排序函数f(D|Q)可以展开为^(D|Q)=^(Q|D)^(D)/^(Q)
(1)其中4(D)和MQ)是指文档和查询的先验概率.由于MQ)对所有文档都一样,并不影响文档排序,因此可以省略.Song和Croft[]将文档D看成是多项式分布的生成结果,得到如下排序函数:
^(D|Q)cclog^(D)+y"]?
/(w,Q)log^(w|MD)
(2)
其中,,/(iv,Q)是指词项W在查询Q中的出现次数.p(v|Md)为v在D的语言模型Md下的概率,即要估计D的一元语言模型.在QLM中4(D)被视为均匀分布被忽略.在p(|Md)的估计过程中,为避免零概率问题,Zhai和Lafferty™提出了多种平滑方法.本文采用其中Jelinek-Mercer(简称JM)平滑方法,加入平滑后的概率计算公式为p(.vu|Md)=(1—/)PMl(v|Md)+/Pml(w|Mc))3)
在统计语言模型的基础上融入时间信息的一种方式是引入文档的时间先验,即认为不同时间的文档重要度不同.Li和Croft2认为时间新的文档的重要度要大于时间旧的文档,基于这个假设提出用指数分布表示时间和文档重要度的变化关系,公式如下:
P(D)=P(D|TD)=Ae—KTc—td)⑷
其中,Td代表文档的时间,TC代表文档集中的最新时间,A是指数分布的参数.在论文中,A是人工指定的.论文通过在TREC新闻语料集上做实验表明,加入时间的检索结果优于没有加入时间的检索结果.为了下文描述方便,我们将此方法简称为LC.
Efron和Golovchinsky[5]指出在不同查询的条件下,每篇文档的重要性是不同的,提出了根据查询伪相关反馈估计指数分布参数的方法,修改式(3)中的,为,,引入了查询信息.设查询Q的伪相关反馈集合记为P={<5?
1,<5?
2,…,
入,=1/珡(5)
k
其中,珡表示集合了的均值,取值为T=Ytlk.本
i-1
文采用这种方法,得到的模型简称为EGML.
综上所述,LC方法和EGML均假设时间越新文档越重要.但是我们发现,该假设与实际情况并不吻合.因此,我们根据实际的分析结果,提出了新的假设,并在假设基础上提出了HTLM系列模型.同时,我们进一步还将不同类型模型进行平滑提出了混合时间语言模型(MTLM).实验结果表明,本文方法效果优于当前的方法.
另外,将时间融入检索模型中还存在其它多种途径.比如在查询扩展中引入时间因素[9],通过在伪相关反馈文档集上做时间统计处理,最终得到扩展词.另一种做法是在文档表示即估计>(™|Md)概率的方法中融入时间信息,比如Kanhabua和N0rvag[1O]提出了一个针对词项zv的时间权重.这几种做法并没有从模型的基本假设出发,和本文的思路存在较大差异.
3时间感知的混和语言模型
3.1TREC2011Microblog查询分析
TREC(TextRetrievalConference)是文本检索领域权威的评测会议,在2011年添加了针对微博检索的任务.TRECMicroblog在2011年提供了从2011年1月23日到2011年2月8日(17天)的Twitter数据,共有14889937条.同时发布了50个查询,标注的相关和不相关的微博个数共为38079.
下面我们用TREC2011Microblog数据中的50个查询作为分析对象.首先,将数据集按照天数划分为17块,对每篇微博标注其时间为所属的天数.然后,统计每个查询的标注相关文档在时间刻度上的分布个数.我们随机地选出多个查询进行分析,图1列出的是编号分别为1、9、24、45的查询相关文档的时间分布图.
°1234567891011121314151617时间/d
(b)«询9扣关文档时P丨分布
WM/d
(«>作询丨扣关文档时间分布!
*!
I2.11567H1011121:
图1TREC2011Micro EGML算法假设对于给定查询,时间越新文档越重要.但是,从图1中可以看出,4个查询的相关文档时间分布的最高点并不在最新时间,而是分布在一个相对高峰的区域.以查询1为例,它的相关文档分布最高点的时间为第4天.如果按照EGML算 I2315678910II121: 査询相关文档时间分布图 法的假设计算文档先验的话,那么会提高分布在第4天到第17天之间的文档的排序位置.但是从相关分布图可以看出,其相关文档在这个时间段中几乎没有,如此引入时间因素,反而会惩罚真正的相关文档.对于其它几个查询也能得到类似的结果.很显然, 对于微博来说,热门事件往往集中在一段时间内出现.所以上述的相关文档出现方式也符合实际情况.针对这一现象,我们提出查询的热门时刻的定义: 热门时刻(HotTime): 给定一个查询和查询的相关文档集合,统计每个时刻的文档出现数目,文档数目突出的时刻称为查询热门时刻. 具体地,我们假设每个查询至少有一个热门时刻,即相关文档出现最频繁的时刻必然是热门时刻, 该时刻也称为最热门时刻.根据热门时刻的定乂,可以提出下列假设: 在给定查询条件下,时间越靠近查询的热门时刻,文档越重要.也就是说式(4)中的Tc应该是查询的相关文档分布最高点的时间刻度,而不是文档集的最新时间,如此便可使得在TC位置的文档重要性高,从而更大可能地提高相关文档的排序位置.需要指出的是,对于某个查询,上述定义的查询热门时刻可能有多个(如图2中的查询45). 1234567Ha10II121: (1'1m1617IHM/d (I.)A咖伪K)X支时M分ftra (at川又Afi丨丨_IM分尔W 图2TREC2011Microblog I2: )1Sfi789In111213ItIT.Ift17时问/d (d>迕相<15伪相尤文杓时M分布W 查询伪相关文档时间分布图 *i2(lfl(釤令UN 3.2基于查询热门时刻的语言模型(HTLM) 根据31节中的查询分析,我们提出了“文档越靠近查询热门时刻重要性越高”的假设.在这个假设下,核心问题就是当无法得到查询的相关文档集合时如何找到查询热门时刻.对此,我们分析查询的伪相关反馈文档集(检索返回结果的前N篇文档)的时间分布(本文统计前500篇文档),观察其与真实相关文档时间分布之间的关系.图2列出的是相对于图1的查询1、9、24、45的Top500的伪文档时间分布图. 对比图1和图2可以发现,伪相关文档时间分布图同相关文档时间分布图具有一定的相似性,并且其最高点的时间刻度也相差无几.为了说明该现象具有普遍性,我们简化热门时刻的个数,只选择文档分布最多的时刻作为查询的热门时刻(最热门时刻),统计50个查询的相关文档和伪相关文档热门时刻的相差天数,其中21个查询热门时刻相同,14个查询热门时刻相差1天.可以看到,有较大比例的查询相关文档和伪相关文档的最热门时刻相当接近.因此我们下面用伪相关反馈文档集合的时间分布来近似真实相关分布. 和前面一样,假定查询Q的伪相关反馈集合记为Pq={<5^1,<3? 2,…,},而了0={,,,,•••,,}表示集合P(3中各文档的出现时间.令Freq,)为,在集合Tj中的出现次数.我们将式(4)中的Tc定义为Tc=Tcq=argmax(Frq(,))并引入绝对值,得到 的P(D)计算公式如下: P(D)=P(D|TD)=Ae—lTc—D(6) 即文档离伪相关文档最热门时刻越近,其先验应该越大.式 (2)中的P(D)采用式(6)计算、P(iw|Md)采用式(3)计算得到的模型就是HTLM模型. 根据参数A计算方法的不同,可以得到两种具体的HTML实现模型: 一种指定A,记为HTLM-LC;另一种根据式(5)计算A,记为HTLM-ML. 对比图中的4个查询会发现,有些查询会有多个热门时刻,不同查询的热门时刻数目也可能不同.比如查询9包含4和17两个热门时刻,也就是说每个查询具有的热门时刻个数是不同的.记查询Q的热门时刻集合为HotTcqS={hh,ht2,…,hthn},hh 设查询Q的伪相关文档时间分布最高点的文档个数为MaxDN,只有当下一个高点的文档个数大于aXMaxDN时,才可将该时刻加入HotTcQS. 当得到每个查询Q的HotTCQs之后,每篇文档在计算过程中,需要代入式(4)的Tcq={hi: Tcq>Zt—1且TcQ 针对查询热点时间不同这个特性,本文共提出4个基于热门时刻的语言模型,统称为HTLM系列模型.在TRECMicroblog的数据集上将对这4个模型进行验证,具体结果将在第5节详细给出. 3.3混合时间语言模型(MTLM) 根据是否引入查询信息,可以将已有工作分为两大类: 1)与查询无关的方法,如前面介绍的LC; (2)与查询有关的方法,EGML以及本文提出的HTLM都属于此类.我们将第1类记为P(DT),第2类记为P(DQT).跟查询无关的算法,就是在整体背景下,定义文档和时间的关系,Lt和Crot2]认为时间越新文档越重要,这部分信息可以看作是文档的背景信息.跟查询有关的算法,也就是在定义文档和时间的关系时,需要考虑当前查询的特性,同一时间刻度在查询不同时,所代表的时间先验也是不同的. 对于一篇文档而言,背景时间信息和基于查询的时间信息都很重要.只运用背景信息,所有文档都千篇一律,不能进行有效的区分.而只运用查询特性信息,该数据集的本身时间特性会被忽略,可能会导致查询特性信息过于突出而影响结果,因此,我们运用平滑思想,提出了一个混合时间语言模型(MixedTimeLanguageModel,MTLM),即定义文档先验P(D)的计算公式为 P(.D)=ajP(.DQT)+(1—w)P(DT)(7)其中为平滑参数,取值为0〜1.我们通过在数据集上验证,证明混合模型要优于单一模型. 4实验及分析 4.1实验数据及评价指标 本文使用的实验数据集为TREC在2011年发布的17天的Twitter数据,我们对这部分数据进行预处理,去除了所有的非英文以及转发微博,同时也去掉了微博内容中的@信息和url信息,处理过后的微博数为9679710篇.本文将基于处理后的微博数据集进行实验验证. 所用的评价指标为计算返回结果前1000篇的 MAP和P@30.—方面微博数据量巨大;另一方面文献[1]中指出对于微博搜索的用户而言,可能会通过不断刷新查询来查看消息,也就是说用户会更关注前N篇微博,所以下面我们将P@30作为在微博搜索中的主要评价指标. 本文选择QLM作为本文的基准模型.同时,本文所用到的模型及其参数取值如表1所示.对所有模型,参数取值都是通过在数据集上做五折交叉验证而确定的.需要说明的是,我们选择的是使P@30最优的参数,而非使MAP最优.关于这一点后面我们有详细的分析. 表1根据P@30指标选择的最优结果参数取值 算法 参数 描述 取值 LC 指数分布的参数 0.3 HTLM-LC 指数分布的参数 0.2 指数分布的参数 0.5 HTLM-AdaptiveMultiLC a 选择热门时刻的阈值 0.8 HTLM-AdaptiveMultiML a 选择热门时刻的阈值 0.9 4.2时间语言模型的实验结果及分析 表2列出的是各个模型在TREC2011Microblog数据集上的实验结果. 表2在TREC2011Microblog数据集上的检索结果 算法名称 P@30 map BaseLine QLM 0.3252 03099 PCDT) LC 0.3244 0.3168 EGML 03238 0.3178 HTLM-LC 0.3327 0.3146 P(DQT) HTLM-ML 0.3347 03023 HTLM-AdaptiveMultiLC 03354 03038 HTLM-AdaptiveMultiML 0.3367 03142 从表2可知,相比于QLM,LC和EGML算法在MAP上有提高,但是都降低了P@30的取值.而本文提出的HTLM系列算法,在P@30上均有显著提高,在MAP上大部分都有所提高,但是相较于LC和EGML,却略微降低.这是因为我们提高了分布在热门时刻的文档的重要性,因为在热门时刻分布的相关文档个数较多,更大概率地提高了这部分相关文档的排序位置,由此提高了前30篇微博中相关文档的个数.但是在查询的热门时刻,虽然相关文档个数多于其它时刻,但是不相关文档也存在,而同时,伪相关反馈的相关文档个数通常要高于真实的相关文档个数,以查询1为例,它的相关文档分布的热门时刻是4,其文档个数为31,而它的伪相关文档分布的热门时刻也是4,文档个数却达到74.整体提高热门时刻的重要性,也提高了多个不相关文档的重要性,使得分布在其它时刻的相关文档位置降低, 由此降低了MAP的分值. 考虑到微博搜索中用户搜索行为特性,即用户更可能通过刷新查询查看前N篇微博的搜索行为,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 搜索 时间 感知 混合 语言 模型