基于Agent的智能化搜索引擎系统概要.docx
- 文档编号:18542607
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:28
- 大小:1.23MB
基于Agent的智能化搜索引擎系统概要.docx
《基于Agent的智能化搜索引擎系统概要.docx》由会员分享,可在线阅读,更多相关《基于Agent的智能化搜索引擎系统概要.docx(28页珍藏版)》请在冰点文库上搜索。
基于Agent的智能化搜索引擎系统概要
北京化工大学
硕士学位论文
基于Agent的智能化搜索引擎系统
姓名:
徐耀
申请学位级别:
硕士
专业:
计算机应用技术
指导教师:
山岚
20060608
图33Aglet生命循环的例子(1
Figure∞ThelifecycleofallexampleaSet.
3.5.移动agent的安全性
使用移动agent技术可以为一些程序带来很多潜在的好处,但是这也会造成一些安全隐患。
这些威胁可能来自于网络上的恶意用户、恶意的aglets、恶意的主机…’。
网络上恶意用户可能穿过网络破坏和篡改aglet。
对于移动agent,数据和程序代码都有可能被篡改。
为了阻止这些攻击,集成检测和保密性是至关重要的。
为了满足这些安全需求,设置了一个安全传输层。
一个恶意的aglet可能影响别的aglet,甚至影响server。
比如,恶意aglet发送“addToCart”消息给另外一个aglet。
如果这个消息被接受,那应用程序的用户将看到一些并不想看到的实体,甚至服务器上的文件被篡改。
为了禁止某些恶意行为,我们可以识别aglet,并限制这个aglet的行为。
一个恶意的服务器能对一个aglet做任何事情。
一旦aglet移动到服务器上,保护移动agent不被侵犯是非常困难的。
为了避免这种状况发生,在aglet到达恶意服务器之前,就能调查和判定服务器的合法性。
Agtets包含了一些安全特征以应付这些威胁。
Aglets的访问控制。
Agent服务器上有一种机制可以控制本地移动agent的行为。
所谓行为,定义为对agent服务器的任何资源的访问:
所谓资源,就是
北京化工大学硕士研究生学位论文
化工专业词汇在整个网站词汇中所占的百分比,并以此为参考得出该网站相对于化工专业的相关度信息,为以后的搜索提供参考价值。
基本架构如图5.12索引分词部分位于数据分析子系统中,分词模块对数据信息进行分词处理后,会产生ChineseT0kellizer类的流,它可以传送给索引模块,根据分出来的词块制作倒排表。
倒排表的关键字对应的记录表项记录出现这个字或词的所有文档,一个表项就是一个字段,记录该文档的ID和字符在文档中出现的位置情况。
图5.12中文分词基本架构
Fi和№5.12basicarcbitedureofsplitChinesewords
以下是具体实现方法:
ChinescTokeIlizer流的缓存队列,即途中的孔lkenBu彘r,Queue类、Queue ̄lember类和Token^Iember类。
Queue是缓存队列,QueueMember类是缓存的队列的单位。
为了解除队列与队列中单位的耦合性,任何类只要继承了QueueMember类就可以放入缓存。
因此有了TokenMember类,它继承了QueueMember类。
Chinese.110kenizer流缓存队列主要类uML图如下,见图5.13:
4l
北京化丁人学颂}:
研究生学位论文
酗寸.鞠.船,_b‘ati憎R越睇。
岍|_Queue
。
一。
。
1
Queue
事EMPTYJ}1f
秒FAJL:
眦
妒FULL:
¨
。
妒封乱e:
Im
毋SUCCEED㈣
—◇0ueueArrayL醴
氇}甄JeueLen蝉h.irlI
~cIearA岫.眦
’getMember(:
0ueueMember
~Inse^Membem:
Int
≈Oueue0.0ueue
≈oueue0:
0ueue
缸孵E@垂臻奢d甜iYeR砒酩oⅢt-Que瞄rl
QueueMember
~Denroy(:
voⅫ
~L0adMember0:
vo㈦
42
图5.13chineseTokenizer流缓存主要类UML幽
Figure5.13
the胁inClassesFigureofChineseTokenizerflowbuffer适当修改程序可以在chineseAnalyzer类的publicTokenStreamtokenStream(Readerreader函数中截获分词传送给索引的ChineseTokenizer流,并利用wDictionary的ischemTerm(Stringch,统计得出化工专业词在整个网站中所占的比例。
以下程序可以截获ChineseTokenizer。
publicTokenStreamtokenStream(Readerreader{
if(reader==null
北京化工大学硕l研究生学位论文
thrc哪newRuntimeException(”readermustbenotnull”/料取得一个对象后再用Reader对其初始化木/
ChineseTokenizerstream=(chineseTokenizerp001.get(:
stream.initialize(reader;
//buildqueuemember
TokenMembermember=newTokenMember(streaIn,hostn锄e:
//截获ChineseTokenizer流,打包成TokenMemeber类
//insertchinesetokenizerintobuffer
queue.insertMember(member:
//将截获的包插入缓存队列
returnstream:
}
为了提高统计速度,把主要统计类RelativeRateCount继承了Runnable类,使得其可以以线程方式运行。
一个chiIleseTokefIizer内包含了被统计网页的所有词汇。
以下是RelativeRateCoun类的U乩图,图5.14
b融.战强。
fdmi饨R砒ee删.GaIn
RdmiwRmeCoI■TI
妒DIctL0acled吼
≯DicI甜a【e啡
妒Di吐Unload¨
≯0ueueInsI雌
≯0ueuest乱e眦
≯0ueueUnIn甜耐
缈beenusedb001ea“
毒》conconnection
蛰dbconnectlonlougec。
nnectl。
n
二蛩dicIV∞idlonar…
4镑g!
!
坚:
!
!
!
竖
’beenused(.b00Iea”
’de科ory(void
~晤面甄难面F而酉
~reglsloueue(vo一
≈Rel乱iveR甜ecoum(:
Rel雠lveR乩ecoum
~run(:
volcI
每sdL臆edF『aqfl。
voH
图5.14RelativeRateCount类uML图
Figure5.14C1assRelativeRateCountUMLfigure
运行时只要向RelativeRateCoun注册静态queue变量,即chineseTokenizer流缓存。
然后启动线程RelativeRatecount,程序如下
RelatiVeRate(0untcount=(ReIatiVeRatecountcountp001.get(;java.1an昌Threadt=new11lread(count;
t.stan(;
北京化工人学坝1’研究生学位论文44
就可以统计出结果,调用insertuRL存储过程,把结果存入数据库。
具体统计程序如下
publicVoidrIln0{
if(queue.statef-queue.EMPTY&&this.DictStatc==this.DictLoaded
&&this.QueueState==thjs.QueueInstW检查队列状态
{
1bkenM锄berm=∞kenMembe巧queue.getM锄be哟;//队列中的得到一个单位
chineseTokenizerct=m.getMenlberO;取得单位的chincsclbkenizer流intallWbrd曲nm=O:
intpWbrdsNum=0.
o曙.apache-Iuc衄e.髓alysis.T0k∞tok∞卸ulI;
try{
while((token=cLnexto!
=null{
allw砌sNum++:
/统计总词汇数目
if(dict.isoe面rcIm(token.te加TcxtoW查询字典是否为专业词汇{
pwbrdsN啪++∥统计专业词汇
}
}
try{
sta_tcm朋tst=∞n.crcateStatemento;
st.execllte(”execinsenuRL川+m.gcm∞诹啦eO一,”
+java.1蹰晷如tegcLtoS埘ng(allwordSN哪
+”,”+java.1all舀hltegeLtosmng(pwb“lsNl曲∥向数据库中插入统计结果
catcll(iava.sql.sOu三xceptione{
e.pfintStacl(Trace(;
>
catchOava.io.IOExcepljonex
{ex.printstackTraceO;}
}
北京化工大学硕士研究生学位论文
5.9.试验结果
spider部分Agcnt通讯过程
45
图s.15恕骟nt通信过程
Figllm5.15Agent蝴unic撕咖proce踮
派遣移动Agem到目标服务器上,并且找到A粤etCo皿cctj∞守护进程,发送数据的过程显示。
从atp:
肥22.199.230.96派遣到atp:
肥22.199.230.86:
434用时937毫秒。
网站与化工专业相关性统计部分数据
图s.16相关性统计结果
Hgure5.16StatistjcofRelaIiveRate
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Agent 智能化 搜索引擎 系统 概要
![提示](https://static.bingdoc.com/images/bang_tan.gif)