网络信息过滤技术.pptx
- 文档编号:18720518
- 上传时间:2023-10-19
- 格式:PPTX
- 页数:44
- 大小:148.59KB
网络信息过滤技术.pptx
《网络信息过滤技术.pptx》由会员分享,可在线阅读,更多相关《网络信息过滤技术.pptx(44页珍藏版)》请在冰点文库上搜索。
网络信息过滤技术,计算机网络安全技术,主要内容,概述内容阻塞内容分级审查,概述,背景随着互联网内容的极大丰富,信息海量化正在导致信息垃圾化,概述,为什么要进行信息过滤国家信息安全的迫切需求使网络用户尤其是青少年学生远离非友善信息的侵扰,净化网络空间改善Internet信息查询技术的需要信息个性化服务的基础信息服务供应商(信息中介)开展网络增值服务的手段,定义,什么是信息过滤?
是指计算机根据用户提供的一个过滤需求(UserProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息Profile:
一组对用户过滤需求的描述,这种“profile”描述了用户长期的、稳定的兴趣爱好近义术语信息的选择分发(SelectiveDisseminationofInformation,SDI),来自图书馆领域路由(Routing),来自MessageUnderstanding最新资料公告(CurrentAwareness),来自数据挖掘,主要特点,无结构的或半结构化的数据文本数据图形和图像数据大数据量难点:
对用户过滤需求的描述,与其它概念的区别,与其它概念的区别,和文本分类(Categorization)的区别分类系统中的类不会经常改变相对而言,UserProfile会动态变化和信息抽取(InformationExtraction)区别信息过滤关心相关性信息抽取只关心抽取的那些部分,不管相关性,分类,根据过滤系统的结构分类1987年,Malone及其同事把信息过滤方法分为3类:
基于内容的过滤(Content-basedfiltering),也叫认知过滤(Cognitivefiltering)协作过滤(Collaborativefiltering),社会过滤(socialfiltering)经济过滤(Economicfiltering)。
目前使用较多的就是基于内容的过滤和基于协作的过滤。
分类,根据过滤系统的结构分类基于内容的过滤这种方法按照信息内容的特征作出选择,主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。
内容过滤能够监测现有信息的内容特征,为用户提供与其曾经感兴趣信息相似的信息,但不能为用户发现新的兴趣信息。
这种方法比较适合于分析文本信息,但对声音、图像、视频等形式的媒体信息还缺乏有效的自动分析方法。
分类,根据过滤系统的结构分类基于协作的过滤这种方法是“相似”用户间的相互协作过程。
通过分析用户兴趣,在用户群体中找到与指定用户兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
由于不依赖于内容,这种过滤方法不仅适用于文本信息,也可以推广到非文本形式的信息。
分类,根据过滤系统的结构分类基于协作的过滤这种方法是“相似”用户间的相互协作过程。
通过分析用户兴趣,在用户群体中找到与指定用户兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
由于不依赖于内容,这种过滤方法不仅适用于文本信息,也可以推广到非文本形式的信息。
局限是活动用户只能获取具有相同兴趣的用户喜欢的信息,而不能获取不同兴趣的用户喜欢的信息。
经济过滤这种方法依赖于成本和用户获益的计算,依赖于价格机制。
分类,根据操作的主动性分类主动过滤系统主动从Web上为其用户推送相关的信息。
在有些主动信息过滤系统中,预先对网络信息进行处理,例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等,在过滤时可以根据分级标记或地址列表决定能否访问。
被动过滤系统不对网络信息进行预处理,当用户访问时才对地址、文本或图像等信息进行分析以决定是否过滤及如何过滤。
分类,根据信息过滤的目的分类推荐系统根据用户对信息的评价把信息推荐给合适的接收者,属于协作过滤系统的一部分。
阻挡系统通过设置一定的条件限制用户获取某些信息,而其他信息可以利用。
分类,根据过滤模板所在的位置分类上游过滤又叫代理服务器过滤。
用户需求模板存放在服务器端或者代理端。
过滤系统也可能处在信息提供者与用户之间专门的中间服务器上,这种情况也叫做中间服务器过滤。
上游过滤的优点是不仅支持基于内容的过滤,也支持协作过滤,缺点是模板不能用于不同的网络应用中。
分类,根据过滤模板所在的位置分类下游过滤又叫客户端过滤,用户需求模板存放在客户端上,用户根据自身需要设置一定的限定条件,将不感兴趣的信息排除在外。
优点是模板可用于不同的网络应用,缺点是只能实现基于内容的过滤。
信息源过滤又叫剪辑服务,用户将需求模板提交给一个信息提供者,由信息提供者为用户过滤信息。
分类,按照从用户获取信息的方法分类显式过滤用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求通过用户交互提供的这些显式信息可以快速、明确描述用户的信息需求,减少系统学习的负担。
但是这种显式的获取用户信息需求的方式会增加用户的负担,加重用户使用系统的困难。
分类,按照从用户获取信息的方法分类隐含式过滤无需用户直接参与,通过观察用户的动作行为判断用户需求用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。
采用隐含式获取用户信息需求的方法容易受到干扰的影响,所以这种方法通常用作显式方法的补充。
分类,按照从用户获取信息的方法分类混合式过滤采用混合式方法获取用户信息需求的方法介于显式方法和隐含式方法之间,它要求尽量减少用户的参与。
混合式获取用户信息需求的方法通常有两种通过文档空间来获取知识(基于案例的方法)通过原型参考来获取知识(推理,预先定义默认的profile,在扫描过程中再改变),现状,信息过滤技术的研究现状当前信息过滤的研究以TREC会议为核心,主要是文本过滤。
国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和过滤算法上。
出现了一些过滤软件,但存在较多问题,过滤效果不佳。
内容阻塞,目的对不良信息从源头进行控制,阻塞这些信息的传入通道两种方式网络层阻塞应用层阻塞部署位置互联网骨干节点企业网/园区网出口,内容阻塞,网络层阻塞技术DNS过滤(DNS劫持)指在特定的网络范围内,拦截域名解析的请求,分析请求的域名,把审查范围以外的请求放行,否则返回假的IP地址或者什么都不做使请求失去响应,其效果就是对特定的网络不能反应或访问的是假网址。
一般部署在互联网骨干节点可以通过指定DNS服务器来绕过审查,内容阻塞,网络层阻塞技术IP地址过滤利用网络设备的数据包过滤或访问控制功能,检查IP包的来源或目的,通过审核的才予以放行,否则将进行阻断一般部署在互联网骨干节点,或是企业网/园区网的出口部分,通过防火墙、路由器等设备来实现IP地址的过滤名单更新太慢,且容易“误伤无辜”,内容阻塞,应用层阻塞技术URL阻塞制定不能访问URL地址,以黑名单的形式存放在代理服务器或应用层网关中。
在进行HTTP请求的时候,代理服务器或应用层网关会对URL进行审查,如果在黑名单中将予以阻塞关键字审查在互联网出口网关处收集信息,过滤、嗅探制定的关键字,针对包含关键字的通信过程进行阻断HTTP报文头部关键词数据流内文关键词,内容阻塞,应用层阻塞技术的部署方式旁路式(Passby)监听网络上所有信息,并有选择的对基于TCP的连接(如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等)进行阻断旁路式过滤的原理基于TCP的连接性:
跟踪所有TCP连接,阻断时以服务器身份向客户端发送HTTPACKPSHFIN,同时以客户端身份向服务器发送HTTPRST。
穿透式(Passthrough)依赖于代理服务器或应用层网关,直接禁止通信过程,内容阻塞,最典型的例子:
GFWGreatFirewall,防火长城,也称“中国防火墙”或“中国国家防火墙”,指中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统的总称,包括金盾系统和相关行政审查系统。
一般所说的GFW,主要指公共网络监控系统,尤其是指对境外涉及敏感内容的网站、IP地址、关键词、网址等的过滤。
国家防火墙并非中国的专利。
实际上,美国也有国家网络监控系统,对进出美国的每一封电子邮件进行内容扫描。
不同的是,中国的国家防火墙会直接切断一些敏感连接,而美国的国家防火墙则只是做数据监控记录。
内容阻塞,GFW的主要技术域名劫持IP封锁关键字过滤阻断HTTPS证书过滤对破网软件的反制,内容分级审查,内容安全分级审查是一种主动的安全技术。
旨在内容发布前,在内容中嵌入分级标识,随后的各种审查措施基于分级标识进行。
这种监管技术可以对信息提供的过程(信源、信息服务和信息的中转等环节)实施主动的审查,以避免不必要的信息及不良信息的传播,通过监管来净化网络环境。
内容安全分级审查的模型,内容的分级,任何接受监管的内容必须要按照统一的标准被分级,内容分级标准是整个审查体系的基础,一般一个信息包括内容类别标志和等级标志,如“暴力2级”。
目前,W3C提出的Internet内容选择平台(PICS,PlatformforInternetContentSelection)标准是一个比较完整的分级标准体系。
内容的分级,PICSPICS提供了对互联网上信息的内容进行标记的一个开放平台PICS提供了有关内容分级的元数据和一种方便于任何独立群体开发自己元数据词汇的机制元数据包括PICS标记词汇和PICS分级服务描述词汇,内容的分级,RSACi分级系统类似于电影分级制度,原先由娱乐厂商向购买者提供产品的等级信息在互联网内容等级协会(InternetContentRatingAssociation,ICRA)倡导下,形成了RSACi分级服务(RecreationalSoftwareAdvisoryCouncilontheInternet)将互联网上的信息大致分为性、暴力、语言和裸体4个方面,每个方面的信息又分为04级。
0级表示无害,级别越高,危害越大。
内容的分级,PICS技术的实现资源描述框RDF(ResourceDescriptionFramework)同时携带多种元数据在网络上传播一个基础结构来支持彼此独立而又互补的元数据的共存可以满足许多不同信息提供者对元数据的要求RDF的核心定义基于以下假设:
任一个可被标识的“资源”都可以被一些可选择的”属性”描述,每一个属性的描述都有一个“值”,内容的分级,PICS技术的实现RDF的例子Liu解释:
指明被描述资源的URI,它是Web资源的唯一标识,它是统一资源定位符URL的超集;被描述资源有一个叫Author即作者的属性,其值是Liu;被描述资源有一叫Home-Page即主页的属性,其值指向另一资源。
生成并嵌入标签,将制定的分级标签与发布的信息内容相结合,可以采用如下3种机制:
META标签RFC-822“标签局”,生成并嵌入标签,META标签利用HTML格式的META标记,将标签嵌入在HTML头文件中,生成并嵌入标签,META标签PICS标准的版本信息,所遵循的分级标准颁布的组织(http:
/pics-server);标签的制定者;标签生成的时间和失效时间;标签应用的HTML页面;页面内容的评级信息Ratings,括号中s、v、p都是http:
/pics-server分级标准定义的关键词,分别代表“性sex、暴力violent、政治politics”,随后的数字是信息内容的评级(Level)信息。
生成并嵌入标签,RFC-822它约定了Internet中一些文本消息的格式,如电子邮件、HTTP、FTP、USENET等应用协议。
PICS定义了针对HTTP协议特定的扩展,允许一个HTTP客户(浏览器)请求与一个文件一起传送的它想要的那个标记。
生成并嵌入标签,“标签局”首先它是一个数据库,存储了大量分级标签,每一个分级标签与标签来源的URL对应。
对应方式有两种:
1个分级标签对应1个文档,或者1个分级标签对应特定URL目录下的所有文档。
生成并嵌入标签,“标签局”标签局为用户提供分级标签的查询服务,用户向标签局发起URL请求,标签局向用户返回该URL对应的分级标签,然后监管中心可以根据标签局返回的分级标签,实施过滤行为。
对识别的标签实施审核,中间模式包含过滤中心与监管中心两个机制,它们可以作为代理服务器配置于信息发布源和信息受众的信息通路上,管理流过的一切信息内容。
过滤中心通过识别信息内容携带的分级标签,依照预先设置的过滤策略实现对信息的过滤管理。
监管中心的主要职责是监控信息内容分级标签的准确性和合法性,先于过滤中心拦截含有非法分级标签的信息内容。
对识别的标签实施审核,客户端过滤模式客户端软件模式利用客户端的外插式软件或一些高级浏览器(如IE5.0以上版本)自带的分级审查工具,按照分级标准中心颁布的分级标准,对已添加分级标准的页面进行过滤,过滤之前同样需要监管中心进行安全监管。
对识别的标签实施审核,谢谢,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 过滤 技术
![提示](https://static.bingdoc.com/images/bang_tan.gif)