互联网视频及舆情剖析.docx
- 文档编号:16024510
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:37
- 大小:308.57KB
互联网视频及舆情剖析.docx
《互联网视频及舆情剖析.docx》由会员分享,可在线阅读,更多相关《互联网视频及舆情剖析.docx(37页珍藏版)》请在冰点文库上搜索。
互联网视频及舆情剖析
1 现状分析
(1)信息技术突飞猛进,新媒体监管愈加复杂困难
当前,互联网应用创新加速,云计算、大数据等新一代信息技术动员力和
影响力,已成为传媒领域重要的新生力量,深刻改变了媒体格局和舆论生态;
三网融合及媒体融合进程不断加速,新闻出版广播影视领域技术 IP 化、IT 化
和云化趋势愈发明显,内容、业务与互联网融合越来越多。
这些都带来了安全
隐患,易被攻击的问题随之而来,尽管目前我省已经针对单个业务构建了监管
系统,但系统比较单一,投资也少,技术、范围、效率等都跟不上形势发展,监
管技术手段远跟不上形势发展的需要,给监管工作带来了极大的挑战。
(2)业务数据庞杂分散,无法统一管理和共享
数据是信息化的基础支撑之一,经过多年建设,xx 省新闻出版广播影视工
作初步构建了传输快捷、覆盖全省的广播影视传播体系、监测监管体系、公共
服务和政务服务体系,但这些体系缺乏有效的统一规划,相关数据分布在省、
市、县以及各相关部门,数据标准不一、接口不同,无法进行有效管理和分析
使用,影响了信息资源的互通共享、开发利用和集中管理,特别是跨部门信息
共享和业务协同困难。
(3)新兴技术应用滞后,政务智能化水平不高
当前,互联网已成为人们获取信息等主要工具平台,我们在政务服务方面
虽然做了大量的工作,初步建设了综合性信息发布门户网站,但系统功能单一、
业务之间互不关联,离政务全电子化目标差距较大,与省委省政府的要求仍有
距离。
(4)数据智能分析能力落后,无法有效支撑科学决策
当前,新闻出版广播影视行业信息数据呈爆炸式增长趋势,行业主管部门
的信息处理与智能分析能力面临严峻挑战,然而目前 xx 省新闻出版广播影视行
业尚未建立智能高效的数据分析及决策支撑平台,现有业务信息系统处理及分
析能力远远无法应对海量信息的冲击,无法有效支撑行业科学决策。
2 系统整体架构
2.1 逻辑架构图
本项目将建设对 xx 省内视听网站和持证重点视听网站的监测监管,对省内
主流 APP、apk 应用服务进行监测监管,对我省播出的网络剧、微电影等网络
视听节目进行审查。
根据互联网视听节目监管业务系统的实际监管需要,同时针对各个监管业
务子系统存在的共性,形成了视听节目数据发现与采集、网页元数据分析、码
流采集与监测、视听内容分析等通用的基础监管业务模块,在基础监管业务模
块基础上根据网络舆情监测的业务需要,形成各自独立的监管系统用于满足某
一方面独特的监测需求。
互联网视听节目监测系统的软件架构采用模块化设计原则,每个模块保持
一定的功能独立性,在协同工作时,通过相互之间的接口完成实际的任务,模
块化设计将各个功能模块有机地结合起来,在保证正确性和健壮性的基础上,
提高了软件的可扩充性和可复用性。
系统软件模块流程图如下:
2
网络视听节目监管系统的软件系统主要包括三层:
节目及网站数据采集层、
数据分析处理层、业务功能模块与数据接口层。
1、分布式数据采集层
数据采集层通过采集控制中心,统一管理数据采集功能。
根据系统的监测目标和技术手段,数据采集包括互联网视听节目及网站搜
索引擎、元搜索引擎。
各个搜索引擎从功能和业务上相互独立,从相应的网络/
3
网站中全面获取视听网站及节目信息。
搜索引擎具备采集控制中心,对搜索引擎的工作进行配置管理。
采集控制
中心支持网站发现、种子分配、地址解析、文本解析、性能监控等功能,同时
支持应用平台下发的配置指令,例如节目下载、取证、快照等等:
2、数据分析处理层
数据分析处理层包括数据处理分析模块和数据存储模块。
数据处理分析模块接收数据采集层上传的视听节目信息,采用先进的全文
自然语言分析技术和分词技术进行数据清洗,获取数据的元信息,并对视听节
目进行节目归类、排重、关联分析,根据上层应用配置的规则,对节目进行规
则匹配、关键帧抽取等操作,结合上层应用的数据业务处理后,对数据进行深
度分析、汇总和统计,并存入数据库和磁盘阵列上。
3、功能模块与接口层
功能模块与接口层采用目前流行的 B/S 架构,以 web 网页形式将各个功能
进行展示。
用户通过 WEB 浏览器对系统进行登录和访问,根据权限调用不同
功能模块,实时开展网上监管工作,掌握系统运行数据。
3 各子系统详细介绍
3.1 互联网视听监管功能
对我省互联网视听节目网站中的视音频节目进行扫描采集、分类罗列,并
识别节目中是否存在政治有害、淫秽色情等违规行为,一旦发现及时预警。
3.1.1 网站管理
3.1.1.1网站发现
系统可根据网站 IP 地域分布特征和网站内容地区服务特征对 xx 省新闻出
版广电局辖区内的视听节目网站进行扫描,对系统监控的重点网站搜索周期为
每 4 小时扫描一周,爬取深度不低于 5 层。
并对扫描到的符合条件的网站根据
4
网站标题、网站内容、网站内部链接等特征进行网站音视频属性判断,初判其
是否属于视听节目网站。
3.1.1.2未批站点
系统可以对管辖范围内未审批的站点进行相应的监控。
可以从站点类别的
角度(待审批、未审批和未申报等类别)对相关的站点的基本信息进行分类和
查询。
同时可以按照不同的分类标准对相关站点进行分类。
对获得的站点信息
进行排重,而且可以采用信息检索技术,检索相应的站点文本信息和视频内容。
3.1.1.3已批站点
系统可以对已经审批通过的站点进行搜索信息的比对,对已审批的站点进
行分类、站点的人工信息录入、站点内容的自动监控跟踪,而且可以采用信息
检索技术对其文本信息和视频内容进行检索。
3.1.1.4重点网站
系统能够对重点监控的网站进行内容比对、网站分类、站点信息同步、人
工核实、网站内容的自动跟踪,及时发现其中传播的违法违规内容及视听节目
的具体情况,同时通过针对音视频节目的抓取引擎,对含有违规、热点内容及
音视频节目的网页主动发现、采集和保存。
并为实现各种查询功能建立相应的
索引。
系统对重点网站进行重点监控,可对该网站节目的节目名称、节目 URL、
节目详细信息、点击数、回复数进行抓取。
并且可对系统初判为疑似违规的节
目进行自动下载和分析。
3.1.1.5节目采集
对监控范围内的音视频网站进行爬虫模块定制,轮循采集网站中的音视频
5
节目(视频、音频(含听书)及网络直播),对系统监控的重点网站搜索周期
为每 4 小时扫描一周,爬取深度不低于 5 层,抓取过程中实时比对违规关键字
库,识别是否出现违规行为。
3.1.2 无证网站监管
系统可以对 xx 省新闻出版广电局管辖区域内未审批的站点进行相应的监测。
可以从站点类别的角度(待审批、未审批和未申报等类别)对相关的站点的基
本信息进行分类和查询。
同时可以按照不同的分类标准对相关站点进行分类。
对获得的站点信息进行排重,而且可以采用信息检索技术,检索相应的站点文
本信息和视频内容。
系统能够对某些未审批、带有不良记录或有转载非法节目
嫌疑等特征的网站,进行重点监控,定期全面地监管相关网站内容,及时报告
相关的监管结果。
实现根据相应的主题词,对相应的网页进行重点的检索,重
点网页内容的摘要抽取功能。
多模式的联合检索、搜索系统的性能分析与改进、
聚类抽取等功能。
3.1.3 持证网站监管
系统可以对于已经审批通过的站点进行搜索信息的比对、对已审批的站点
进行分类、站点的人工信息录入、站点内容的自动监控跟踪,而且可以采用信
息检索技术,检索相应的站点文本信息和视频内容。
3.1.4 持证重点网站监管
系统能够对持证重点网站进行内容比对、网站分类、站点信息同步、人工
核实、网站内容的自动跟踪,而且可以采用信息检索技术,检索相应的站点文
本信息和视频内容。
系统能够对热点的、广泛关注的视听节目进行重点监控,
并能及时发现节目的传播、转载情况,以便相关的监管部门采取必要的管理措
施。
实现对于网络热点视听节目的摘要抽取、关键网页的文字内容的摘要抽取
等功能。
6
3.1.5 网站备案信息核查
核查网站 ICP 备案信息真实性。
3.1.6 违规节目识别
违规视听节目识别主要对采集的网站视听节目,对许可证进行及开发机构
进行识别,可以通过关键字策略分析判断政治有害,黄赌毒淫秽色情,境外频
道(节目)等有害分类,支持有害关键字及有害规则管理,可以通过建立境外
频道/节目备案信息库来判断检测境外视听网站及节目内容;可以对指定 IP 范
围内或相关 ICP 备案信息中的网站进行扫描。
3.1.7 审核流程定制
在研判业务流程中,提供一审、二审等多种角色。
监管中心的具体业务流
程和角色均可根据实际业务流程调整而做出相应变化。
主要业务流程为:
监管中心将各研判员上报的有害节目报告进行汇总,统
一进行报告内容的研判审核,查看上报的节目违规取证文件,若监管中心审核
不通过,则报告会打回到研判员进行重新取证和审核;若监管中心审核通过,
则按照标准格式撰写报告,提交到二审人员进行审核;二审人员对一审人员提
交的报告进行审核,查看节目取证文件信息,审核通过后对报告进行签发、报
出,有害节目研判业务流程正常结束。
确认为有害的节目由提交相关部门实施
删除或封堵
3.1.8 违规取证
违规节目取证对违规识别模块发现的违规节目进行页面截图,视频下载,
音频下载取证,取证结果首先存入取证人员本地磁盘,然后通过上传操作上传
至中心监管平台加密存储,判断违规后将违规节目存入违规视听节目数据库,
视频证据文件存入存储设备并与数据库建立映射关系。
7
3.1.9 音视频节目采集
通过针对视音频的抓取引擎,对业务部门动态设定的重点视听节目网站上
的视音频网页进行主动发现和采集,并依据设定规则对疑似有害视听节目自动
进行采集保存。
3.1.10 内容分析与样本建立
综合利用文本信息抽取、视频关键帧提取,对采集的数据进行数据分析与
规整,得到相应的文本摘要和媒体特征信息,然后以这些特征信息为索引,对
视听节目进行自动排重和自动分类、自动聚类,建立有序分类的视音频节目数
据库
3.1.11 检索与比对
提供友好的人机界面,对重大事件进行预警,并提供关键字、视频样例、
音频样例等多模态的检索和多种灵活的统计方式,为上级领导和业务部门实时
提供上述重点网站上视听节目的传播、变更、用户关注度等方面的监管信息。
3.1.12 节目归类
对主动抓取下来的网页精确抽取描述文本信息,结合对节目的视音频特征
分析,根据预定义特征(关键字、视音频样例、图片等)实现节目的自动识别
和分类(政治有害、淫秽色情、暴力、惊悚恐怖、低俗、赌博、其它有害),
为监管信息的查询、统计提供基础数据。
3.1.13 网站地理定位
开放式用户自定义判定视听节目网站标准,系统可根据网站 IP 地址对网站
地理地址进行定位,并在 GIS 地图上进行标注,地图可以自由拖动和缩放,并
提供根据所属城市、网站名称、网站 URL 进行查询、并支持分区地图显示。
8
3.1.14 定制任务
受国家广电总局等有关部门指派,对个别社会危害大、影响恶劣的视听节
目采取的专项清理任务和行动,具有较强的针对性和时效性。
完成专项任务,
需要系统能够按照监管要求制定专门的监控策略,按照即时搜索、专项任务优
先的原则,灵活配置和调度专项搜索任务,集中调拨系统资源对专项任务涉及
的领域或节目进行搜索和识别,从而达到对专项任务监控对象有效监管的目的。
主要是针对与总局的紧急下达的监管任务进行快速准确的响应,并且第一
时间发现问题网站并进行监管,系统界面上设有专项任务的功能模块,在该模
块中提供工作人员对专项任务的配置和结果的检索查看功能。
3.1.15 信息查询
通过 WEB 界面,提供包含关键字、视频样例、音频片断等在内,全局检索
方式,和报表、饼图等多种灵活的统计方式,并能直接显示、播放相应的视音
频节目内容,为上级领导和业务部门实时提供重点网站的传播、变更、用户关
注度等方面的监管信息。
3.1.16 报表功能
对系统发现的互联网视听节目监管数据进行统计分析,自动生成报表,可
以包括:
备案信息核查报表、违规节目报表、网站监管报表、违规节目动态统
计报表、持证网站节目增量区段分布报表等。
3.1.17 系统管理
系统能够对整个区域环境内运行的系统运行信息、统计信息进行监控和授
权管理。
对系统运行状态进行监控,为系统提供安全稳定的运行环境,有利于
系统的维护、资源调配和系统运行的优化。
系统监控:
对系统硬件设备性能、网络运行状态进行监控,及时发现故障。
9
用户管理:
对系统用户、权限和日志进行管理和维护。
系统配置:
为系统各功能模块的相关业务参数提供统一配置界面,实现对
业务参数的统一配置和管理。
3.2 互联网舆情监测功能
3.2.1 敏感信息共享
3.2.1.1事件关键字
系统支持配置关注的事件关键字,根据关键字自动匹配相关帖文并智能展
现给对应用户,代替手工逐条筛选的现状,不仅提高工作效率且获取的信息更
全面。
3.2.1.2地域关键字
xx 本地涉及多个国内外知名企业,这些企业的名誉也关系到我省的对外形
象,因此系统将预先设定类似的地域特征关键字,对搜索到的信息进行逐一排
查,识别相关的舆情热点。
3.2.1.3领导人关键字
可根据事先配置的领导人关键字自动推送预警领导人舆情。
在地方性突发
事件中,通过网络的转载及个别心怀叵测人员的推波助澜,其地方最高领导人
往往无辜的推上舆论的“制高点”,为保护领导及地方政府的声誉,将地方相
关领导设置为舆情监测对象,在某些居心叵测的人员策划事件升级前,及早发
现并预警舆情,才能将这些非正当事件扼杀在萌芽状态。
3.2.2 敏感舆情监测
对敏感信息和本地敏感信息舆情信息进行监测,对违规网站和和违规节目
10
文书列表详情集中进行监控管理,页面展示出境外代理网站入口、直接采集于
各主流搜索引擎的热点事件列表、热点舆情信息和报告文件。
3.2.2.1激增事件
系统通过以轮巡的方式对互联网中的每条节目的点击率、收听收看率进行
采集,利用数据分析模块进行周期趋势对比,从而发现哪些节目发生了激增,
展现在界面中,便于监管人员做出积极响应。
3.2.2.2热点话题
系统通过采集节目的点击数、收听收看人数利用数据分析模块来判断当前
最受关注的热点节目及话题,系统跟踪节目的转发地和转发人群,系统通过相
关话题的时间轴,并跟踪此话题的子话题,总结其中的关键词,关注关于该关
键词的类似话题,也就是其话题演变趋势,从而可以对这些话题进行分析,得
到其中的联系。
3.2.2.3头条新闻
头条新闻是将国内较大门户网站(例如:
新浪、搜狐)上的新闻热点
Top10 采集汇总到系统中,监管人员可以对不同网站中传播相似话题的节目予
以重视,判断该话题是否可能成为下一个舆论热点,并做出相应预处理措施。
3.2.2.4事件跟踪
在激增事件、热点话题、头条新闻中发现了重要信息,需要进一步探测跟
踪时,定制跟踪模块可以对相关信息进行跟踪探测,发现信息首发时间、首发
平台、首发单位等.
3.2.2.5内容跟踪
内容跟踪主要是通过提交关键字、音频片段和视频片段来扫描系统采集到的
数据,并发现信息首发时间、首发平台、首发单位等.
11
3.2.2.6敏感舆情
系统通过获取国内新闻门户网站、网络视听网站等媒体上登载的与 xx 省视
听节目相关的动态信息,生成各种舆情简报,为用户全面掌握互联网视听舆情
动态,提供翔实的分析数据。
3.2.3 违规信息
3.2.3.1违规网站
对识别出违规节目或者敏感信息的网站信息进行汇聚统一展示。
展示内容
包括:
违规节目数、总节目数、最近一个违规节目上传时间等信息。
3.2.3.2有害节目
对识别出有害节目的网站信息进行汇聚统一展示。
展示内容包括:
违规节
目数、总节目数、最近一个违规节目上传时间等信息。
3.2.4 舆情专题
在敏感关键字库中建立关键字的子项,一个关键字相当于一个舆情专题分
类,对于匹配到子项的系统自动归类为同一个专题下,系统可以对该专题下的
节目传播情况进行展示,包括传播时间轴、首发网站、首发时间等。
用户可定
义每一个舆情专题的紧急程度,系统将对应的发布舆情告警信息。
3.2.5 舆情告警
3.2.5.1一级告警
一级告警主要是指监管人员对舆情专题事件进行审核时设定的指数,若设
定一级告警,系统将自动以短信形式发布相应告警信息到相关部门人员手机中,
提示各部门做好下一步防范措施。
12
3.2.5.2二级告警
二级告警相比于一级告警级别更高,紧急程度也更高,系统将自动以短信
形式发布相应告警信息到相关部门人员手机中,并建议相关人员进入待命状态,
准备下一步处置措施。
3.2.5.3三级告警
三级告警属于最高级别预警,是指涉及辖区政治导向问题、最高领导人敏
感话题、重大企业敏感话题等舆情专题,系统也将调集优势资源对相关的舆情
信息进行管辖范围网站搜索,相关执法部门也将根据搜索结果对传播此类信息
的网站予以通告,并下发删除违规信息通知。
同时,系统也将发布重大舆情事
件告警信息到相关人员以及领导层人员手机中。
3.2.6 统计报表
系统设定舆情专题报告模版,监管人员可以对每一个舆情专题生成舆情报
告,可支持导出下载。
报告内容包括舆情事件、传播网站、传播时间趋势、涉
及关键字内容、处置过程、处置结果等。
3.3 移动互联网应用程序(APP)监测功能
3.3.1 手机 APP 节目 EPG 信息获取功能
使用合法账号模拟手机 APP 软件对内容服务器进行请求,获取全部节目菜
单,以及节目海报、简介等节目信息。
周期性的自动更新节目信息,及时发现
新增的 APP 节目。
3.3.2 手机 APP 节目码流信息获取功能
通过对内容服务器进行请求,合适 EPG 信息并进行节目地址获取,获取到
的节目地址可以直接进行码流采集。
13
3.3.3 节目详细信息查看
对采集到的手机 APP 节目,可查看其详细信息,包括 URL、节目名称、发
布时间、发布者、播放次数、评论数等元数据信息,并能够直接播放查看其视
频内容,用户可根据视频的图像摘要快速了解该节目内容,如点击关键帧图片
快速定位播放视频内容,通过节目全景图快速了解节目全貌。
节目详细信息还
需包含节目所 APP 信息。
3.4 网络剧微电影审核系统
对系统搜索到的网络剧、微电影等节目信息进行核查,及时发现未按要求
或未标注备案号的节目,上报相关行政管理部门进行查处。
根据节目信息列表、
节目备案状态、备案审核操作查看网络剧、微电影视听节目备案情况。
对持证网站传播网络剧、微电影信息备案和备案号标注进行核查,包括是
否已在“网络剧、微电影等网络视听节目备案系统”中及时备案,是否在片头
加注网站自查审核信息等,并对违规情况进行记录,提供审核确认功能。
备案号获取方式:
主要分为两类,一类是融合在视频里面的,另一类是纯
文本以 frame 形式盖在视频上。
融合在视频里面
需要采用 OCR 识别技术或者图像识别技术去获取备案号。
纯文本以 frame 形式盖在视频上
通过配置模板解析就可以获取备案号
审核系统功能:
3.4.1 节目信息列表查看
列表包括节目编号、节目名称、节目类型、备案单位、省份、备案时间备
案状态、备案人员等字段信息
14
3.4.2 节目备案状态显示
系统能够显示备案节目的送审状态,送审状态分为备案中与备案通过,状
态显示为审核通过后表示完成节目备案程序。
3.4.3 节目信息备案审核
页面提供备案通过一级备案驳回等右键操作,针对单个节目进行备案审核,
下方工具条操作:
备案通过 备案驳回,针对多个节目进行批量的备案审核。
管理员可以针对节目信息进行审查,必要时能够作出通过备案或驳回修改
等操作。
15
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 视频 舆情 剖析