舆情卫士监测平台技术方案.docx
- 文档编号:18643820
- 上传时间:2023-08-24
- 格式:DOCX
- 页数:21
- 大小:406.28KB
舆情卫士监测平台技术方案.docx
《舆情卫士监测平台技术方案.docx》由会员分享,可在线阅读,更多相关《舆情卫士监测平台技术方案.docx(21页珍藏版)》请在冰点文库上搜索。
舆情卫士监测平台技术方案
舆情卫士监测系统
技术方案
中国移动通信集团安徽省有限公司安庆分公司
2017年5月
目录
1总体需求3矚慫润厲钐瘗睞枥庑赖。
1.1建设目标3聞創沟燴鐺險爱氇谴净。
1.2功能需求3残骛楼諍锩瀨濟溆塹籟。
1.2.1互联网海量信息采集子系统4酽锕极額閉镇桧猪訣锥。
1.2.2海量信息存储子系统4彈贸摄尔霁毙攬砖卤庑。
1.2.3海量信息检索子系统5謀荞抟箧飆鐸怼类蒋薔。
1.2.4互联网云数据分析处理子系统5厦礴恳蹒骈時盡继價骚。
1.3性能需求6茕桢广鳓鯡选块网羈泪。
1.4其他需求6鹅娅尽損鹌惨歷茏鴛賴。
2技术方案7籟丛妈羥为贍偾蛏练淨。
2.1翼腾云计算概述7預頌圣鉉儐歲龈讶骅籴。
2.2总体设计概述9渗釤呛俨匀谔鱉调硯錦。
2.3系统架构图11铙誅卧泻噦圣骋贶頂廡。
2.4业务流程图13擁締凤袜备訊顎轮烂蔷。
2.5数据中心简介14贓熱俣阃歲匱阊邺镓騷。
2.6.1海量互联网信息采集子系统16坛摶乡囂忏蒌鍥铃氈淚。
2.6.1.1通用采集技术16蜡變黲癟報伥铉锚鈰赘。
2.6.1.2互联网信息采集18買鲷鴯譖昙膚遙闫撷凄。
2.6.2海量信息检索子系统19綾镝鯛駕櫬鹕踪韦辚糴。
2.6.3大数据分析处理子系统21驅踬髏彦浃绥譎饴憂锦。
2.6.3.1信息及数据处理22猫虿驢绘燈鮒诛髅貺庑。
2.6.3.2舆情及敏感信息分析24锹籁饗迳琐筆襖鸥娅薔。
2.6.4用户权限管理26構氽頑黉碩饨荠龈话骛。
2.6.5安全子系统27輒峄陽檉簖疖網儂號泶。
2.6.6手机舆情28尧侧閆繭絳闕绚勵蜆贅。
总体需求
1.1建设目标
建设****舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。
识饒鎂錕缢灩筧嚌俨淒。
建设****舆网络舆情监测系统,以达到舆情监测与分析应对工作全面覆盖、有序管理、多方联动的效果。
提高师范大学网络舆情突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。
凍鈹鋨劳臘锴痫婦胫籴。
1.2功能需求
大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。
必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。
数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。
可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现。
恥諤銪灭萦欢煬鞏鹜錦。
1.2.1互联网海量信息采集子系统
网络媒体形式全,可以对各类网络媒体进行监测:
1)门户网站:
系统可采集以媒体发布为主的新闻网站的信息;
2)论坛:
各种形式的BBS、贴吧、论坛、社区;
3)博客:
各博客网站的博客信息;
4)微博:
各微博网站信息监测;
5)电子报:
各类报纸的电子报的信息监测;
6)问答:
对问答类网站的采集;
7)视频:
对视频网站文字信息的采集;
8)WAP:
对WAP网站信息的采集;
9)搜索引擎:
对搜索引擎信息的聚合;
10)微信公众账号采集。
1.2.2海量信息存储子系统
实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。
鯊腎鑰诎褳鉀沩懼統庫。
1)可存贮至少三个月的历史数据;
2)可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;
3)具有完整的容灾备份方案。
1.2.3海量信息检索子系统
采用分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。
采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。
硕癘鄴颃诌攆檸攜驤蔹。
1.2.4互联网云数据分析处理子系统
信息及数据处理主要是针对采集入库后的数据进行整理、处理。
主要技术和功能包括:
(1)漏斗式过滤技术:
采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。
(2)中文分词:
采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。
阌擻輳嬪諫迁择楨秘騖。
(3)要素分析
对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。
氬嚕躑竄贸恳彈瀘颔澩。
(4)数据挖掘:
关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:
釷鹆資贏車贖孙滅獅赘。
1)分析出舆情高发网站及频道;
2)分析出舆情高发人群;
3)推荐网民关注度高的舆情;
4)筛选新词、热门话题;
5)关联性分析:
采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。
怂阐譜鯪迳導嘯畫長凉。
1.3性能需求
1)常规监测信息源数量3万个以上;
2)日均采集信息量300万条以上;
3)信息采集效率在30分钟以内;
4)数据中心数据可提供PC端、移动端等不同方式的信息检索,检索效率在5秒钟以内;
1.4其他需求
1)可针对客户要求给出详细的硬件配置方案;
2)基于数据中心的监测平台系统架构图;并详细描述所采用的技术及方法等。
3)系统部署的拓扑图;
4)可以统一管理各服务器的运行并监测其运行状况;
技术方案
1.5翼腾云计算概述
“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论,而是一种商业模式的体现方式。
“计算与数据”跷跷板的平衡已发生变化,即已经到“移动计算要比移动数据要便宜的多(Movingcomputationischeaperthanmovingdata)”,透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务,云计算的关键技术:
谚辞調担鈧谄动禪泻類。
1.虚拟化技术
虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩大硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统方面。
虚拟化技术主要应用在CPU、操作系统、服务器等多个方面,是提高服务效率的最佳解决方案,以PaaS为核心来构建和运营新一代的SaaS应用,通过与移动运营商合作共建SaaS舆情应用系统,解决众多中小企业舆情需求,OpenStack提供了比较成熟的PaaS解决方案。
嘰觐詿缧铴嗫偽純铪锩。
2.分布式海量数据存储
云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。
冗余的方式通过任务分解和集群,用低配机器替代超级计算机的性能来保证低成本,这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。
使用的数据存储系统是Hadoop团队开发的GFS的开源实现HDFS。
熒绐譏钲鏌觶鷹緇機库。
3.海量数据管理技术
云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。
使用开源NoSql数据库Mongodb和Cassandra解决海量文章的存储、检索。
鶼渍螻偉阅劍鲰腎邏蘞。
4.编程方式
云计算提供了分布式的计算模式,采用了一种思想简洁的分布式并行编程模型Map—Reduce。
Map—Reduce是一种编程模型和任务调度模型。
主要用于数据集的并行运算和并行任务的调度处理,基于Hadoop集群,使用Map-Reduce解决离线数据的挖掘。
另外针对流式实时运算采用并行编程模型Spout-Bolt,基于开源的JStorm集群实现实时文本挖掘。
纣忧蔣氳頑莶驅藥悯骛。
5.云计算平台管理技术
云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。
采用Nagios对众多集群进行监控,使用SALT解决大规模服务器的自动化管理。
颖刍莖蛺饽亿顿裊赔泷。
翼腾数据中心借助于上述5个方面的云计算技术,解决了互联网海量信息的实时检索、海量分析、推荐挖掘等问题,依托于全国众多数据中心,为多个行业、多个地域的SaaS舆情监测平台提供数据支撑,为众多企事业单位提供优质的中文信息监测服务。
濫驂膽閉驟羥闈詔寢賻。
翼腾已建成的数据中心使用依托阿里云云平台,每天采集互联网500W以上的海量文章信息,每个数据中心的出口带宽达到10G,每天新增10T以上数据文件,使用分布式文件系统、分布式数据库存储索引、文章等相关信息,使用软件方式解决了数据可靠性问题,翼腾搜索引擎实时的返回各个SaaS平台的检索需求,能够支持上万并发请求。
另外通过实时推送技术,每天推送到客户端的信息量能够达到上百万。
銚銻縵哜鳗鸿锓謎諏涼。
1.6总体设计概述
舆情卫士监测平台是基于大数据平台+行业解决方案+面向服务的整体解决方案,海量数据大都为非结构化的文本数据,使用NoSql技术和Hadoop架构进行有效结合集成,实现在采集、存储、分析、挖掘、检索、展示等方面的具体要求,并针对某个行业做深入开发,以服务的方式提供数据产品。
大数据平台是在大数据环境下,为满足数据处理要求而倾力打造的一款具有革命性架构设计的平台级产品。
大数据管理系统由服务器集群、大数据处理软件、情报产品三部分组成,系统支持PB级海量数据管理,采用高可靠架构设计,兼容Hadoop标准,自有海量全文检索引擎系统,支持水平扩展。
大数处理软件是一款完全分布式、多副本机制、数据分片的集群系统,不存在单点故障或性能瓶颈。
挤貼綬电麥结鈺贖哓类。
“舆情卫士监测平台”可以分为两个部分来建设。
一是互联网信息数据中心平台。
平台完成各类海量信息的采集、存储、检索等功能,建设完成后可以供不同用户进行舆情信息巡查。
二是基于数据中心平台的舆情应用平台的建设,包括PC端及移动终端的各种舆情管理与应用。
赔荊紳谘侖驟辽輩袜錈。
互联网信息数据中心负责从互联网各类网站进行信息采集,同时还支持其他各种信息的收集和存储,比如微信公众账号所发布信息等信息。
数据中心大量进行数据采集、处理和存储,为满足不同用户及业务应用,采用分布式技术进行规划信息检索服务,提高数据检索效率。
塤礙籟馐决穩賽釙冊庫。
不同用户应用平台的信息都来源于数据中心,基于这些数据建立自己的应用平台,本建设实现了中心数据向多用户开放,为将来不同用户根据实际需求定制本用户的信息平台提供数据支撑和平台基础。
裊樣祕廬廂颤谚鍘羋蔺。
舆情卫士监测平台同样是采用大数据、移动互联网等新技术进行建设,一可以保证整体舆情工作效率,同时还为未来应用留下了发展空间。
舆情卫士监测平台是一个整体平台,在平台使用的基础上,基于大数据技术进行了更深一步的数据分析和挖掘。
仓嫗盤紲嘱珑詁鍬齊驁。
舆情卫士平台可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现、态势研判和舆论引导,重点栏目信息1-5分钟发现报警。
绽萬璉轆娛閬蛏鬮绾瀧。
1.7系统架构图
特点及优势:
★采用分层架构设计,每个功能都有多份系统,不存在单点故障,且可进行水平扩展;
★系统采用嵌入式、多引擎技术,并满足用户定制自己的数据处理逻辑的要求;
★基于索引分区机制,实现内存中高速的索引创建,海量索引数据放入磁盘,解决了快速索引的应用需求,同时有效减少索引匹配范围,缩短检索响应时间;骁顾燁鶚巯瀆蕪領鲡赙。
★采用多副本机制,实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力,每份数据都至少有三块同样的数据做备份;瑣钋濺暧惲锟缟馭篩凉。
★支持离线检索模式,适应大量数据检索的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题;
★自有缓存集群,千亿数据提取<10毫秒;
★大数据底层基于Hadoop,充分利用HDFS的可靠性,数据挖掘采用MapReduce分布式运算模型,解决了海量数据挖掘的数量瓶颈问题。
鎦诗涇艳损楼紲鯗餳類。
1.8业务流程图
数据中心系统是一个集互联网舆情采集、检索于一体的综合系统,系统通过采集互联网数据,对数据进行过滤分析,向其它舆情产品推送热点数据信息。
数据中心的部署实施需要建立一个舆情信息处理分布式平台和云服务器集群,内容包括服务器、存储等硬件设备,核心业务系统分别使用网络负载均衡技术及服务器群集技术实现高性能与高可用性。
数据存储使用区域存储网络,并使用磁带库进行数据备份,充分保障业务数据的可靠。
基础应用系统分布部署在应用服务器组中,基础服务系统服务器组部署Hadoop、Mongodb、Tomcat、HornetQ、Tomcat等软件系统,信息门户服务器组部署舆情指挥系统等平台软件,统一信息交换服务器部署数据中心程序,数据中心部署文章索引服务、文章采集服务集群,建立应用软件的数据仓库及数据库系统,将关键数据集中存储在SAN存储网络之中,确保实现整个系统应用和数据的可靠性和安全性,以满足数据存储、信息处理等方面的需要。
栉缏歐锄棗鈕种鵑瑶锬。
1.9数据中心简介
数据中心主要包括以下子系统:
互联网海量信息采集子系统、海量信息存储子系统、海量信息检索子系统、展示子系统、信息分析分发子系统、网评子系统、数据存储与容灾备份等。
还包括多对微信、二维码、和视频的采集和分析处理等。
辔烨棟剛殓攬瑤丽阄应。
数据中心广泛采用集群应用、分布式数据存储、分布式计算等云技术。
可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现,确保重点栏目信息1-5分钟发现报警;数据检索通过对分布式存储和分布式计算的采用,有效确保了在海量数据的情况下,系统的检索响应速度控制在秒级范围。
峴扬斕滾澗辐滠兴渙藺。
2.6.1海量互联网信息采集子系统
海量数据采集子系统实现对互联网信息的采集功能,包括了前端采集信息、搜索引擎信息和人工浏览信息。
采集设备可分布式部署。
詩叁撻訥烬忧毀厉鋨骜。
支持互联网全网信息采集,云平台可实时监测3万余个网站、超过50万个栏目或频道的实时信息,同时还采用元搜索技术,对上百个搜索引擎的信息通过关键词搜索及采集,日均信息处理量达700万以上。
则鯤愜韋瘓賈晖园栋泷。
2.6.1.1通用采集技术
(1)采用定点采集和全网搜索相结合的采集机制。
定点采集可确保第一时间采集到重点网站的信息,全网搜索可进行传播全面性的补充采集;
1)定点采集:
系统内置的50万栏目,采用定点采集方式;
2)全网搜索:
通过关键词对新闻类搜索引擎、论坛类搜索引擎、博客类搜索引擎、微博类搜索引擎及大型网站的站内搜索工具的信息聚合搜索;胀鏝彈奥秘孫戶孪钇賻。
3)内嵌脚本执行引擎:
随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设。
内嵌脚本引擎对脚本语言的自动解析和执行,实现对采用脚本语言的论坛、博客以及新闻评论网站的采集;鳃躋峽祷紉诵帮废掃減。
4)7*24小时不间断采集,5分钟采集频率,信息更新扫描最小间隔为1分钟;
5)对各微博网站实现访问搜索。
6)支持验证码采集;支持多页合并采集。
(2)全媒体采集
网络媒体形式全,可以对各类网络媒体进行监测:
1)门户网站:
系统可采集以媒体发布为主的新闻网站的信息;
2)论坛:
各种形式的BBS、贴吧、论坛、社区;
博客:
各博客网站的博客信息;
4)微博:
国内外微博网站信息监测;
5)电子报:
各类报纸的电子报的信息监测;
6)问答:
对问答类网站的采集;
7)视频:
对视频网站文字信息的采集;
8)WAP:
对WAP网站信息的采集;
9)搜索引擎:
对搜索引擎信息的聚合。
10)微信公众账号采集
实现对微信公众账号信息的监控和数据采集。
系统可自动添加对微信公共账号的关注,形成微信公众账号库,实现对公共帐号信息的实时采集。
稟虛嬪赈维哜妝扩踴粜。
2.6.1.2互联网信息采集
通过自动识别技术识别并抽取网页的要素,包括:
标题、来源网站、来源频道、发布人、发布时间、链接(URL)、正文、图片、快照、表格,自动剔除广告(图片或flash)等垃圾部分,存储为统一的结构化信息,供后续分析、检索、查询、统计和展示。
陽簍埡鲑罷規呜旧岿錟。
海量子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。
沩氣嘮戇苌鑿鑿槠谔應。
利用MongoDB来一体化解决采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。
具体包括:
钡嵐縣緱虜荣产涛團蔺。
(1)解决海量文章信息存储问题(高并发写、高速查询、高速统计分析);
(2)解决海量文章检索问题(高并发写、高速查询、统计分析);
(3)解决存储服务高可用性问题(如负载均衡、线性扩容、故障转移、灾备恢复、服务监测等);
最终目标:
简化现有平台业务流程,减少故障节点,提高存储服务的高可用性。
2.6.2海量信息检索子系统
采用Lucene+Hadoop分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。
采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。
懨俠劑鈍触乐鹇烬觶騮。
文章经由采集服务器采集,发送到消息队列中,搜索客户端获取文章内容,实时建立索引,并对外提供实时数据检索服务。
对于海量数据建立索引,使用基于HadoopMapper/Reducer分布式运算建立索引。
然后把建立的索引从HDFS分发到各个索引服务器。
謾饱兗争詣繚鮐癞别瀘。
因为采集系统采集的网页比较多,每天采集的数量至少在100万篇,所以在索引设计时需要考虑到不同资源的需求,这里面至少有两个因素需要考虑,一个是时效性,另一个是数据量。
呙铉們欤谦鸪饺竞荡赚。
时效性指的是一个资源的数据从修改到生效需要的时间,时效性高表示生效时间短,有的资源甚至需要立即生效;而生效时间长的资源也会分成很多档次,有小时级的,有天级的,甚至有更长时间的静态资源。
数据量指的是一个资源的数据规模,从最小的数千条到千万级甚至亿级,不同数据量级别的资源会用不同的方式进行索引构建以及索引检索。
以下简单列举了不同时效性和数据量条件下的索引方式:
莹谐龌蕲賞组靄绉嚴减。
实时索引需要实时支持索引的增加以及删除操作,更新操作可以看作是删除操作和增加操作的组合。
对于数据量小的资源,可以将索引完全放入内存,在内存中建立倒排索引,增加操作可以直接在索引拉链的末端添加新的doc_id,注意这里的doc_id是全局分配的,保证索引拉链按照doc_id的升序排序;对于数据量比较大的资源,由于索引无法完全放入内存,需要建立文件索引,但由于文件索引的紧致压缩的特点,无法实时地在倒排拉链中添加doc_id,在这种情况下,解决时效性问题可以有两种办法,一种是尽量缩短建索引时间,例如基于map-reduce的分布式建库技术可以将千万级别的建库时间缩短到10分钟以内,这种索引我们称为伪实时索引;另一种比较复杂的方式是混合索引,即索引的增量部分存于内存中,在检索时需要将内存索引和文件索引合并,这种方式在做检索时处理较复杂,数据中心搜索主要采用的是伪实时索引方式处理大数据量、高时效性资源数据。
麸肃鹏镟轿騍镣缚縟糶。
对时效性低的数据也有不同的处理方式,对于数据量比较小的资源,单机索引能完全涵盖,此时只需要周期性的构建索引然后进行索引切换就可以了;对于大数据量的资源,单机索引无法涵盖,索引必须分布到多台机器上,数据中心搜索现在是按照doc_id进行切分,一个doc对应的所有term都会分布到同一台机器上。
納畴鳗吶鄖禎銣腻鰲锬。
数据中心搜索的索引构建流程。
对实时内存索引,增加、删除索引都是实时流,但是频繁索引修改会导致索引拉链碎片增多,需要有专门的任务定时整理索引拉链,一方面是清理碎片,紧致排列索引拉链;另一方面也需要对过长的拉链进行截断。
对文件索引,使用分布式建库是个非常高效的方法,数据中心搜索的文件索引建库主要是采用这种方式。
風撵鲔貓铁频钙蓟纠庙。
2.6.3大数据分析处理子系统
互联网云数据分析处理子系统包含信息及数据处理和舆情分析。
大数据时代,对数据的解释是关键。
目前,数据的可获得度已经空前提高,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,实现真正的大数据挖掘和分析。
数据的海量、及时、动态、开放,有利于我们完善分析的效度和深度。
同时,大数据也有价值密度低、传播速度快等特点,数据分析的模式是否科学,这将直接影响数据分析的质量。
大数据的异构和多样性,需要舆情分析人员对一些危机事件进行高质量的数据解释。
基于数据分析,能否提炼出独到、高质量的观点,在凌乱纷繁的数据背后找到更符合客户要求的舆情产品和服务,并进行针对性的调整和优化,这是大数据时代舆情最大的变量。
灭嗳骇諗鋅猎輛觏馊藹。
大数据时代,对趋势的研判是目标。
大数据的核心和目标就是预测,具体到舆情服务,舆情工作人员从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益,虽然获得广泛且实际的应用,但还远远不够。
舆情分析人员要不断增强关联舆情信息的分析和预测,把服务的重点从单纯的收集有效数据向对舆情的深入研判拓展,跟踪关联舆情,不再局限于危机解决,还要辅之以决策参考,从注重“静态收集”向注重“动态跟踪”拓展,从致力“反映问题”向致力“解决问题”拓展,使舆情产品和服务“更高、更快、更强”(视点高、预警快、处置强)。
铹鸝饷飾镡閌赀诨癱骝。
2.6.3.1信息及数据处理
信息及数据处理主要是针对采集入库后的数据进行整理、处理。
主要技术和功能包括:
(1)漏斗式过滤技术:
采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。
(2)中文分词:
采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。
攙閿频嵘陣澇諗谴隴泸。
(3)要素分析
对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。
趕輾雏纨颗锊讨跃满賺。
(4)数据挖掘:
关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:
夹覡闾辁駁档驀迁锬減。
1)分析出舆情高发网站及频道;
2)挖掘文本中的重要信息,如联系电话、QQ号码、邮件地址等信息;
3)分析出舆情高发人群;
4)推荐网民关注度高的舆情;
5)筛选新词、热门话题;
(5)关联性分析:
采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。
视絀镘鸸鲚鐘脑钧欖粝。
2.6.3.2舆情及敏感信息分析
舆情分析技术是用于舆情信息分类和判断,按照关注的人物、地域、单位、事件、主题等要素进行舆情分类,并对敏感舆情的传播情况包括传播源头、发布人、传播媒体、传播内容、传播路径进行抽取
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 舆情 卫士 监测 平台 技术 方案