欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    舆情监控系统.docx

    • 资源ID:14287856       资源大小:24.57KB        全文页数:14页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    舆情监控系统.docx

    1、舆情监控系统舆情监控系统一、背景概述 3二、建设必要性 4三、建设目标 5四、核心技术 5五、系统架构 7六、工作流程 8七、系统功能 87.1信息采集 87.2信息处理 1 17.3舆情分析 1 27.4舆情展示 1 2八、 应用效果 1 3九、系统配置 1 59.1 网络带宽 1 59.2 运行环境 1 5网络舆情监测系统解决方案网络舆情监测系统利用互联网信息采集技术、 智能信息处理技术 和全文检索技术; 结合网络舆情的传播分析模型: 对境内外网络中的 新闻网页、论坛、贴吧、博客、微博等网络资源进行全网监控、定向 采集和智能分析,把互联网读薄,读透,提供相关舆情、负面舆情、 热点信息的发现

    2、、主题事件监测、分类监测、舆情实进预警、舆情监 管、统计分析、辅助决策支持等多层次,多维度的舆情信息的服务, 根据用户有网络舆情监测和定向追踪等信息需求,形成简报、报告、 图表等分析结果, 从而帮助用户及时掌握舆情动向 为领导和舆情工 作部门提供信息参考和决策支持一、背景概述 随着互联网的快速发展,网络媒体作为一种新的信息传播形式, 已深入人们的日常生活 网友言论活跃已达到前所未有的程度, 不论 是国内还是国际重大事件, 都能马上形成网上舆论, 涉军涉警事件更 是成为部分网民炒作对象,通过这种网络来表达观占、传播思想,进 而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步可 以说,互联网

    3、已成为思想文化信息的集散地和社会舆论的放大器网络舆情是通过互联网传播的公众对现实生活中某些热点、 焦点 问题所持的有较强影响力、 倾向性的言论和观点, 主要通过论 坛、博客、新闻跟贴 ( 回贴 ) 、转帖等实现并加以强化当今,信息 传播与意见交互空前迅捷, 网络舆论的表达诉求也日益多元 对部队 来说,如何加强对涉军涉警网络舆论的及时监测、有效引导,以及对 网络舆论危机的积极化解, 对维护部队声誉、 促进部队健康发展具有 重要的现实意义网络舆情监控系统 是针对在一定的社会空间内, 围绕涉军涉警 事件的发生 、发展和变化,民众对部队的态度天网络上表达出来 意愿集合而进行的计算机监测的系统统称网络舆

    4、情 是较多群众关于社会中各种现象、 问题所表达的 信念、态度、意见和情绪等等表现的总和网络舆情形成迅速, 对社会影响巨大, 加强互联网信息监管的同时, 组织力量开展信 息汇集整理和分析, 对于及时应对网络突发的涉军涉警事件和全 面掌握社情民意很有意义二、建设必要性 由于舆情有突发性,随机性,多样性等特点,传统舆情监控 已经无法满足目前的形势需要,互联网舆情监测系统应运而生各单位对于突发事件, 如果有工具能及时监测发现舆情信息 及其根源,及时做好危机公关,做好积极的舆论引导工作,处理 还处在萌芽状态的舆情, 就能控制势态发展, 为企业和个人减少 损失,挽回无形的、有形的损失对于涉军涉警负面信息的

    5、监测, 是舆情监测的重中之重, 必 须要有一个舆情发现快,信息全,信息准确,全天候自动监测系 统三、建设目标通过对传统媒体网络版 ( 含中央媒体、地方媒体、市场化媒 体、部分海外媒体 ) 、新闻网站、网络社区论坛、 社交网站、群、搜索引擎、视频网站、知道、贴吧、 意见 领袖 的个人博客、微博等,进行多语言全年小时监控 与本单位相关的敏感信息, 特别是负面信, 在第一时间将信息通 知到指定责任人, 主动掌握舆情进展及未来趋势, 为领导决策分 析做支撑,为宣传部门提供舆情检测工具四、核心技术 . 垂直搜索垂直搜索引擎是针对某一个行业的专业搜索引擎, 是搜索引擎的 细分和延伸, 是对网页库中的某类专

    6、门的信息进行一次整合, 定向分 字段抽取出需要的数据进行处理后再以某种形式返回给用户。 垂直搜 索是相对通用搜索引擎的信息量大、 查询不准确、 深度不够等提出来 的新的搜索引擎服务模式, 通过针对某一特定领域、 某一特定人群或 某一特定需求提供的有一定价值的信息和相关服务。 其特点就是 “专、 精、深”,且具有行业色彩, 相比较通用搜索引擎的海量信息无序化, 垂直搜索引擎则显得更加专注、具体和深入。. 元搜索元搜索引擎( Metasearch Engine ),是一种调用其它独立搜索引 擎的引擎 ,亦称“搜索引擎之母( The mother of searce engines) 。”在 这里,

    7、 “元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个 独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可 被利用的独立搜索引擎称为 “源搜索引擎 ”(source Engine ),或“搜索 资源”(searcing resources ),整合、调用、控制和优化利用源搜索引 擎的技术,称为 “元搜索技术 ”( Meta-searching technique ),元搜索 技术是元搜索引擎的核心。. 中文文本挖掘 中文文本挖掘是一项综合技术,涉及数据挖掘、自然语言处理、 计算语言学、信息检索及分类、知识管理等多个领域将其用天文本 数据中可以发现其隐含知识, 即进行知识获

    8、取 中文文本挖掘出的数 据源是文本数据,可以是 Web页面、文本文件、 Word和Excel 文件、 PDF文件等形式的电子文档在获取文本信息之前先对文本数据进行预处理,包括数据清洗, 如去噪、去重;数据选择,即选择所需文本数据;文本切分,如中文 分词、段落切分等然后提取中文文本的特征信息,包括关键词 ( 高 频词) 提取、术语(词组、短语 )提取、基于模板的信息抽取、基于语 义词典的概念转换、 基于浅层句法分析的语法特征提取、 基于浅层语 义分析的语义特征提取、基于文本分类的文本类别信息获取等操作 . 信息聚类聚类是把一组样品按照相似划分为若干类别, 使属于同一类别的 样品之间的距离尽可能小

    9、, 而不同类别样品间的距离尽可能大, 按照 相似性进行聚合贝叶斯聚类算法是一个典型的聚类式的层次聚类算法, 使用后验 概率作为最大化的目标函数,有非常好的聚类效果使用聚类分析来做网络舆情监控的专题、 热点事件、 重点人及重 点组织的处理通过聚类分析,把不同类型的网络信息聚合在一起, 用于分析各类别的传播热度五、系统架构网络舆情监测系统利用互联网信息采集技术、 信息智能信息处理 技术和全文检索技术、对境内外网络中的新闻网页、论坛、微博、贴 吧、博客、新闻评论等网络资源进行全网监测、 定向采集和智能分析, 把互联网读薄,读透提供相关舆情、负面舆情、热点信息的发现、 主题事件监测、分类监测、舆情实时

    10、预警、舆情监管、统计分析、辅 助决策支持等多层次、 多维度的舆情信息服务, 根据用户的网络舆情 监测和定向追踪等信息需求形成简报、 报告、从而帮助用户及时掌握 舆情动向 为领导和舆情工作部门提供信息参考和决策支持 网络舆 情监控系统由信息采集、 信息处理、舆情分析、舆情展示四部分组成对武警部队而言, 舆情监测的需求既有通用性, 也有个性化的特 点存在;网络舆情监测系统具有极大的扩展性,凡是需要对舆情、口 碑关注的政府、 企业、高校和其他组织机构都可以通过本系统进行量 身打造,建立适合自己的舆情监测体系网络舆情监控系统采用 B/S结构相结合的系统架构, 利用先进的 系统架构,实现基于浏览器的客户

    11、端式六、工作流程网络舆情监测系统的工作流程是:. 网络信息采集系统从互联网上采集新闻、 论坛 、博客、 存储到 舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引 . 舆情分析引擎负责对舆情数据库进行清洗、智能分析和加 工舆情分析引擎依赖于智能分析技术和舆情知识库. 舆情服务平台把舆情数据库中经过加工处理的舆情数据发布 到 Web界面上并展示给用户 . 用户通过舆情服务平台浏览舆情信息,通过简报生成等功能 完成对舆情的深度加工和日常监管工作七、系统功能网络舆情监控系统, 是将搜索引擎技术应用在部队舆论情报服务 的一次创新 系统利用独有技术, 能根据预定的监控关键词在实时发 现重点媒体

    12、、论坛、博客、微博等网站里的舆情信息,并对信息及时 报警系统利用中文分词技术、自然语言处理技术、中文信息处理技 术,对信息进行垃圾过滤、 去重、相似性聚类、 情感分析、提取摘要、 自动聚类等处理,配合专业分析师生成详细的舆情分析报告7.1信息采集自动采集系统是舆情监测系统的核心与基础, 因此评价一个舆情 监测系统是否优秀的重要指标就是自动采集子系统能否将目标信息 及时全面地采集到系统中信息采集子系统的职责是对全部网站进行自动采集 系统内置重 点网站有:() 新闻类门户网站:如新浪网、网易、人民网、雅虎 ( ) 政府机构门户网站:如首都之窗、中国政府网、各地政府 网 () 信息资讯网站:各地信息

    13、港、行业咨询网 ( )交互性质网站:如强国论坛、天涯社区、西祠社区、网易区、 新浪论坛、搜狐社区、 BBS贴吧 ( )传统媒体 :人民日报、参考消息、中国日报、解放军报、各 省市地区报纸、各地新闻网等媒体网络版( ) 博客:新浪博客、腾讯博客、网易博客、博客中国、博客 网 ()微博: Twitter 、新浪微博、腾讯微博、网易微博、搜狐微 博 () 视频网站:Youtube、优酷、土豆网、视频、酷网 () 搜索引擎:Google、BaiDu、Bing、Yahoo、搜搜、有道 ( ) 社交网站: FaceBook、 Google 、人人网、豆瓣、开心网、 QQ群、QQ空间 信息采集了系统可以抽取

    14、所有新闻文章或主题贴或着最新主题 贴内容,还可以抽取某个主题贴的所有回复贴或着最新回复贴的内 容即可指定某个目标网站进行监测, 也可以不指定目标网站对于全 球范围内网站进行监测, 或着进行两者混合监测 即可以监测国内网 站,也可以监测国外网站如 BBC,CNN等信息采集了系统还可以对于基于应用程序的聊天室程序监测,如 QQ 群聊天室7.1.1全网爬虫系统自主研发了专为舆情系统设计的智能网络爬虫 (spider) 系统,可 以实现高质量和快速的抓取,还支持对新浪微博、腾讯微博、搜狐微 博、网易微博等主要微博平台信息的实时抓取7.1.2定向抓取源舆情监测系统对于人工定义的重点站点的新闻、 论坛、博

    15、客等实 现全面的抓取, 同时支持对主流新闻网站分页、 评论内容的采集以及 对论坛点击数、回贴数、回帖内容的抓取7.1.3搜索引擎结果智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果, 对于系 统抓取进行补充,确保信息全面无遗漏7.1.4多采集线程并行处理本子系统可以部署在多台计算机上, 实现高效的多线程同时并行 处理,减少单一服务器采集压力7.1.5强大的多语言统一处理功能可自动处理并保存中文,英文,阿拉伯语,法文,德文,日语, 韩语等多国语言,且有多国语言同时并存监测的实际案例7.1.6智能文章提取对于文章类型网页, 可以无需配置, 直接自动提取文章正文与标 题,以及作者发布日期,来源等,自

    16、动去除广,栏目,版权等无关的垃圾内容 这个功能对于舆情监测非常重要, 可以大大免除配置的负 担该功能经过我们的多年测试, 对于绝大部分文章型页面都可自动 准确识别7.1.7可无人值守全天候自动采集可定时行, 也可小时运行, 可设置采集时间间隔最短为 分钟7.2信息处理7.2.1垃圾信息过滤 基于机器学习的垃圾过滤机制可以自动过滤广告、 水贴等无效垃 圾信息7.2.2智能去重采用 文章相似性技术 ,根据文档内容的匹配程度确定是否重 复去重的级别;根据不同的需要特点分为: URL 去重、标题去重、 正文去重三个级别7.2.3HTML 内容提取采用自主知识产权的 HTML网页文本萃取技术自动提取任意

    17、复杂 网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页; 对于论坛信息自动分析主贴、回帖以及作者等信息7.2.4快照保存对于每个经过抓取和处理的网页, 系统都存有一个纯文本的备份, 方便用户快速浏览,也方便用户查看被删除的文章或帖子7.3 舆情分析7.3.1文章权重计算综合网站重要程度、文章出现位置、主题相关度、点击回复次数、 传播数量以及用户自定义规则等复杂参数计算的文章权重, 加上基于 自然语言处理技术的训练系统,能准确分析出重要舆情信息7.3.2传播轨迹分析系统可以对于一段时间 ( 自定义范围 ) 内的舆情信息走势进行分 析展示,同时可以以不同的载体如论坛、新闻等分类呈现7.3

    18、.3自动分类与情感分析将自然语言处理技术( SLP)应用与舆情监测领域,对信息精准 分类并自动做情感分析。7.3.4相似文章算法基于自然语言处理技术, 系统根据文章内容相似程度计算相似文 章,方便获取同一内容文章的所有传播网站。7.3.5爆发趋势分析对于重要的热点新闻信息, 系统会进行分析和追踪, 自动统计相 关的新闻和论坛传播情况以及舆情的走势,进行爆发趋势分析。7.4 舆情展示7.4.1WEB客户界面基于云计算模式, 用户可以使用 WEB浏览器随时登陆系统, 在客 户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载 体覆盖情况等主要内容,并以列表以及图

    19、表展示等可视化方式呈现, 方便客户查看。导航栏清晰明了, 方便用户查看各种分类;栏目定制功能,用户 可以在首页自行删、减、增添所需要的功能模块。实时搜索功能,用户可以自定义搜索条件查看系统内抓取的最新 监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。7.4.2舆情预警预警级别显示, 显示当日舆情级别,方便用户整体把握,同时呈 现预警信息走势和预警信息列表。建立多个舆情指示, 对于突发舆情自动发出预警信号, 在最短时 间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导。7.4.3舆情分析报告根据舆情分析引擎处理后的结果库生成报告, 用户可通过浏览器 浏览,并且可以到处生成为 wo

    20、rd、 PDF等格式的本地文档。专业行业分析师辅助提供相关日报、周报、月报,方便客户对不 同时段的重点和热点进行把握。 对于突发事件提供详细的事件专题分 析报告,对时间舆情数据进行有针对性的解读。八、 应用效果本系统对互联网进行实时的自动采集,分析,汇总,监视,并识 别其中的关键信息,排除无用信息,及时通知到相关人员,从而为第 一时间积极应急响应负面信息, 是正确舆论导向提供工具, 收集舆情信息的信息化系统比较指标人工检测采用本系统及时性不及时,随意性强每 10 分钟采集一次重点目标网站人工发现事件时间 晚,比较被动, 人工通知到责任人自动主动发现事件,时间及时,主动通知责任人人力成本需多人在

    21、工作时间, 分别登陆各个网站, 手上查阅,还要手上 复制黏贴,疲于奔命全年 7*24 小时无人值守,网络信 息的获取工作完全由软件自动进 行,检测人员只需在内网集中进行 内容的浏览、挑选、分类、分析信息保存零碎,不可避免会出错精确,全面,便于事后追踪数据储存word 文件,分散, 很难管理,备份与恢 复不方便。统一存放在大型关系数据库中,集中管理,方便备份与恢复监测报告基于手工统计加估计,数据支持不充分针对各维度的自动化的统计分析, 图文并茂,具有翔实统计数据支 持,可以每日,每周,每月出报告监测效果覆盖片而,不及时, 差强人意,浪费人力 资源覆盖全面,实时,自动化,系统化九、系统配置9.1

    22、网络带宽根据采集板块的数量不同,要求的网络带宽也有所不同: 300 个 板块以内建议至少 5M,300-5000 个板块建议在 10M-15M;5000-10000 个板块建议在 15M-2041 之间;另外,带宽与多线程访问有关系,如 果带宽大则可以调整线程个数, 支持信息的更新快, 如果带宽小则调 小线程数据量,信息更新相对较慢。9.2运行环境9.2.1 网络爬虫服务器推荐配置一台网络爬虫服务器支持采集 500 个板块的信息, 因此爬虫服务 器配置的数量应根据需要采集板块的数量来定,如采集 2800 个板块 需要 6 台服务器(不能采用一合超高性能的服务器来代理, 否则采集 周期会加长),

    23、爬虫服务器的配置要求如下表所示:配置项描述500 个模块CPU双核至强 2.13GHz 以上内存4G硬盘320G操作系统Microsoft Windows 2003 Server Microsoft Windows Server 2008 R29.2.2WEB 管理服务器推荐配置系统采用一台服务器进行 WEB管理,配置由用户数量来定, 具体 配置如下:访问人数配置项描述300 人以内CPU双核至强 2.131GHz以上内存4G硬盘250G300-3000CPU双核至强 2.5GHz以上内存8G硬盘500G3000-10000CPU四核至强 2.13GHz 以上内存8G硬盘1TB10000-20

    24、000CPU四核二路至强 2.13GHz以上内存16G硬盘1TB20000 以上CPU根据具体情况配置内存根据具体情况配置操作系统Microsoft Windows 2003 ServerMicrosoft Windows Server 2008 R29.2.3数据库服务器推荐配置系统需一台数据库服务器, 七配置根据采集板块的数量来定, 建议采用磁盘阵列动态扩充容量,具体配置如下:采集板块数量配置项描述200 以内CPU双核至强 2.131GHz以上内存4G硬盘1TB200-1000CPU双核至强 2.5GHz以上内存8G硬盘2TB1000-5000CPU四核至强 2.13GHz 以上内存8G

    25、硬盘3TB5000-10000CPU四核二路至强 2.13GHz 以上内存16G硬盘6TB10000以上CPU根据具体情况配置内存根据具体情况配置操作系统Microsoft Windows 2003 ServerMicrosoft Windows Server 2008 R2十、主要特点 (1)预警及时,舆情信息在第一时间以邮件、短信等方式发送到指 定邮箱地址和号码。(2)系统 7*24 小时不间断数据采集, 精准全面的网络舆情采集, 能 够对论坛、博客、 新闻评论等内容进行全面、精准的采集和及时的更 新,为舆情分析提供强有力的数据保障。(3)多维度实时监测、过滤网络舆情信息,采集到本地的文章

    26、会自 动标注并分析,具有趋势图直观展现。(4)专业的舆情监控平台,用户可以根据实际工作需要,将需要关 注的信息定制到系统, 用户可以随时调出自己需要的资料, 直接追踪 关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省 用户人力。附:舆情监控系统界面及功能一、监控记录界面界面左侧围栏目导航菜单,共有监控记录、舆情分析、监控设置和系 统参数四个菜单。其中监控记录分为四类:论坛监控、微博监控、全 网监控、博客监控。界面右侧显示监控采集的信息。选择类别、时间、排序、条数后,点 击“刷新”按钮,则按所选要求显示信息。每条采集的信息显示标题、摘要、来源、发布时间、正负研判、浏览 次数、评论次数

    27、、转载次数等内容。舆情正负研判有自动和手工两种方式: 自动研判是根据 “监控设置 设置特征词”中的设置进行判断,手工研判是对自动研判的修正。 每条采集的信息科进行人工舆情处理, 根据信息的重要程度修改为重 点舆情或删除信息, 删除的舆情放置到舆情回收站中, 可在舆情回收 站中进行复原或彻底删除; 设为重点的舆情放置到重点舆情库中, 可 在重点舆情库中复原为普通舆情,或者生成舆情简报,供领导审阅。 根据舆情的特性可人工设置为正面舆情或负面舆情。 界面下方有 “重 点舆情库 / 舆情回收站”链接,其中设为重点的舆情放置到重点舆情 库中,删除的舆情放置到舆情回收站中。界面类似于舆情主界面,不 同之处见红框标出。


    注意事项

    本文(舆情监控系统.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开