欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    隐私保护数据挖掘算法综述陈晓明.docx

    • 资源ID:10338480       资源大小:29.35KB        全文页数:20页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    隐私保护数据挖掘算法综述陈晓明.docx

    1、隐私保护数据挖掘算法综述陈晓明隐私保护数据挖掘算法综述)陈晓明1李军怀1彭军2刘海玲2张璟1(西安理工大学计算机科学与工程学院西安710048)1(重庆科技学院电子信息工程学院重庆400050)2,同时考虑的是数据垂直分布在两个站点上的情况。设数据库是由n条记录构成,对于其中的一个k-项集,站点A拥有其中的p个属性a1,a2,ap,ai1,ai2,aip,表示第i条记录对应在这些属性上的值, X表示一个n维矢量,第i维的值xi= pj=1aij;站点B拥有剩余的q个属性b1,bq,bi1,bip表示第i条记录对应在这些属性上的值。对于B,类似的有:一个n维矢量 Y,其第i维的值yi= qj=1

    2、bij,于是有k=p+q。这样,通过计算 X Y= ni=1xiyi,可以得出k-项集的支持计数,从而得出全局频繁集以及关联规则。但是,如果按照上面的方法,要计算支持计数,那么站点A或B都必须公布各自的私有信息,暴露了自己的隐私。针对这样的情况,Jaideep Vaidya提出的算法就是一种不向对方公布自己的向量的情况下计算标量积的方法。他的根据就是解一个n元线性方程组,而方程的个数小于n,其结果是不确定的。通过这样的方法达到保护隐私的目的,同时还能保证各方只能得到全局的频繁项集和关联规则。对各站点将其拥有的属性构成一个n维系数矩阵,通过产生随机的n个数R1,R2,Rn,使之与其拥有的属性线性

    3、组合,通过交换计算结果得到规则。2.4其他除了以上提到的一些典型方法,其他的学者也提出了另外的一些隐私保护算法。例如:Y.Saygin等在文15中通过在记录中添加“?”的方法,来对敏感规则进行保护。文16中利用安全标量积协议提出了一个在数据垂直分布情况下,通过生成随机向量的方法进行隐私保护;文17中在数据水平分布方式下,利用加密方法建立判定树保护隐私。Zhan-gqiang Yang等在文18中所提到的是一种基于分类规则的隐私保护方法,算法针对全分布环境下的数据,使用一种简单的加密方法,各个站点间仅仅向挖掘者进行一次数据传输,在保护隐私的同时最大限度地保证挖掘的准确性。Lin Xia-odon

    4、g等在数据水平分布环境下,使用聚类理论提出一种期望最大化(EM)混合模型19。3算法的评价标准目前国内外已经产生出了针对不同环境下的很多的隐私保护算法。通过上面对一些目前典型的算法的介绍可以看出,很明显,在进行隐私保护数据挖掘研究中,对算法作出适当的评价。或者说,在进行应用开发的时候,采用哪一种隐私保护算法是非常重要的。隐私保护算法可以从下列方面进行评价和比较:(1)保密性。也就是说站在隐私保护的角度,如何能够最大限度地防止入侵者非法获取隐私数据,对隐私进行有效的保护。在现有的算法中,保密是一个最基本的方面,各个算法都从不同的角度进行了实现。但是不同的算法都设定了一个特定的数据模型,而且更重要

    5、的是这些算法针对非法入侵者都进行了一个基本假定,即所有的非法入侵者都是采用同样的入侵手段来获得数据的。而实际中,这显然是理想化的。综合来看,前面提到的不同算法,所能做到的保密性都是有限的。(2)规则效能。规则效能是指在使用隐私保护算法处理数据的时候,对原始信息的修改使得挖掘结果,也即最终得出的全局关联规则,与原始数据之间关系的匹配程度。规则效能其实反映的是挖掘结果的有效性、可用性。很多的隐私保护算法是用了混乱或者相似的技术对原有数据进行了“净化”,主要是针对其中的隐私数据进行了处理。这样,处理后的数据如果经过挖掘得出的是错误的,或者说不能反映真实状况的规则,那么原有的数据也就失去了价值,而这样

    6、处理数据的算法也同样失去了效用。因而在考虑保护个人隐私的同时,算法还要能在整体上反映出规则联系。例如,对于基于关联规则的隐私保护算法,可以从经过挖掘算法处理后的数据库所得到的规则数目与原始规则的数目相比较,来得出算法的规则效能;针对分类规则,也可以使用类似的方法。(3)算法复杂性。具体指算法的时间复杂性和空间复杂性,也即算法的执行时间以及在进行数据处理时使用处理资源的消耗程度上,可以说这是直接与计算效率直接相关的一条标准。算法复杂性的高低体现在该算法所需要的计算机资源的多少上。所需资源越多,该算法的复杂性就越高;反之,所需资源越少,该算法的复杂性就越低。具体来说需要时间资源的量称为时间复杂性,

    7、需要空间资源的量称为空间复杂性。特别地,在分布式环境下,通讯复杂性也是一个主要因素。无疑,复杂性尽可能低的算法设计算法时所追求的一个重要目标。(4)扩展性。指对算法在处理海量数据集时的能力,或者是在数据量增加时,其处理效率的变化趋势。算法的扩展性的好坏直接反映在当所处理的数据量急剧增大的时候,算法的处理效率是否下降得很剧烈。很明显,一个扩展好的算法在数据量增大的同时,其效率的变化是相对缓慢的。算法的扩展性在一定程度上是与其复杂性相关的。例如基于混乱技术的算法在处理数据时,算法从时间复杂度上讲是相对较低的,但是从空间复杂度方面,由于其要遍历整个数据库,计算其中的频繁集,对内存资源的消耗是很大的。

    8、特别是数据库中的数据量急剧增大的时候,其处理效率会显著降低,扩展性不好。结束语本文对目前比较典型的各种算法进行了一定的介绍和分析,综合提出了评价隐私保护算法好坏的4条标准。实际上,上述这些算法在保密的准确度方面差别不大,在当今数据量急剧增长的时代,算法的复杂性、扩展性以及规则的效能等特性更为重要。此外,由于算法针对的目标不同,效果一般和数据的特点有关,目前还不存在能适合各种不同数据的最佳通用方法。一种各方面特性都很好的算法,仍有待进一步研究。参考文献1 Cranor L F,Reagle J,Ackerman M S.Beyond concern:Under-standing net user

    9、sattitudes about online privacy:Technical Re-port TR 99.4.3.AT&T Labs-Research,1999.http:/www.2 Vaidya J,Clifton C.Privacy preserving association rule mining invertically partitioned data.In:the 8th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining,2002.6396443 Han Jiawei,Kam

    10、ber M.数据挖掘概念与技术.范明,孟小峰,等译.北京:机械工业出版社,2001.84 Verykios V S,Bertino E,Nai Fovino I.State-of-the-art in Privacy-preserving Data Mining,SIGMOD Record,2004,33(1)5 Oleveira S R M,Zaiane O R.Protecting Sensetive Knowledge byData Sanitization.In:Proceedings of the Third IEEE InternationalConference on Data

    11、Mining,2003(下转第199页)186根据修改后的数据来发现关联规则。以下是其中的关键性概念。隐私漏洞我们知道项集A产生了一个等级为的隐私漏洞,如果对某个项目aA以及某个i1N,有Pati A ti,也就是说一个在随机化交易中的项集A,如果A中的某个项出现在非随机化交易中的概率不小于的话,那么就可以说项集A产生了等级为的隐私漏洞。select-a-size运算符对于每个可能输入的规模为m的交易,一个“选择一个规模(select-a-size)”运算符R有如下参数:a)某一个项默认的随机化等级m(0,1);b)交易子集规模选择的概率pm0,pm1,pmm,且每个pmj =0,pm0+pm

    12、1+ +pmm=1。对于给定的交易序列T=(t1,t2,tN),运算符独立地取走每条交易ti,并且按以下步骤处理ti(m= ti ):a)运算符从集合0,1,m随机选择一个整数j,这样Pj被选择=pmj。b)运算符同样是随机地从ti中选择j个项目(没有替换),这些项目(不含其他ti)被放入ti。c)运算符反过来考虑每个项目a ti,然后以“正面”概率为m、“反面”为1-m抛出一枚硬币。所有结果是“正面”的项目加入到ti。cut-and-paste运算符一个“剪切粘贴(cut-and-paste)”运算符是select-a-size运算符中特殊的一类。对于每种可能输入规模为m的交易,它有两个参数

    13、:一个m(0,1)和一个整数Km =0,运算符独立地处理每个交易ti并按以下方法得到交易ti(m= ti ):a)选择在0与Km间随机选择一个整数j;如果jm,那它会设置j=m。b)随机地从ti中选择j个项目放入ti。c)每个项(包括ti剩余的部分)以概率m独立地放入ti。Shariq J.Rizvi等学者在文11中根据朴素贝努里概型提出了一种称为MASK的隐私保护算法。作者使用的数据库是由固定长度的0,1序列形成的记录组成的。算法的具体实现是通过对所有原始数据按照贝努里概型进行变换,具体来说,设原始数据X=Xi,Xi=0或1,使用变换函数Y=distort(X),其中Yi=XiXOR ri,

    14、ri是服从贝努里分布的一个随机变量,即取1的概率为p,取0的概率为1-p。考虑到对原始数据进行变换所耗费的时间和空间,远比在数据挖掘时对数据的重建的消耗要大很多,因而Shariq后来对MASK算法进行了一些优化。(2)基于分类的隐私保护数据挖掘通过对大量数据的统计计算找出趋势,而不一定要知道百分之百真实的数据。R.Agrawal在文12中提出了一种基于重建式的技术,算法针对数值型数据概率分布的重建,该算法通过添加随机偏移量对原始数据进行随机化混乱,然后使用贝叶斯公式,根据原始数据的分布来重建决策树。通过重建数据分布可以建立一种准确程度接近真实数据分布的分类标记。同时,R.Agrawal引入了一

    15、些量化方法来检验通过上述方法处理后的数据隐私泄漏状况,从置信度以及预测的准确程度上对算法进行了检验。具体地讲,如果可以以c%的置信度预测出某个数值x处在某个区间内,那么这段区间的宽度就决定了带有c%置信程度的隐私数量。但是由于贝叶斯定理的成立本身需要一个很强的独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。2.2数据水平分布从表1中我们可以看出,如果数据的分布方式不再是集中式的,那么如果要进行隐私保护,那么大多数数据挖掘领域采用的是基于加密的技术。特别是在分布式环境下的隐私保护问题,安全多方计算(SMC)是最为常用的一个协议。安全多方计算是在一个互不信任的多用户网

    16、络中,各用户能够通过网络来协同完成可靠的计算任务,同时又能保持各自数据的安全性13。下面所提到的基于加密的隐私保护算法,以及后面数据垂直分布情况下的基于加密的隐私保护算法都是可以划归为一个特殊的安全多方计算协议。在基于加密技术的隐私保护方面,对于隐私的定义,Ben-ny Pinkas在文8是这样给出的:限制通过分布式计算所能获得的满足其要求的所泄漏的信息称之为隐私。BennyPinkas对安全多方计算在基于加密技术的隐私保护方面的应用作了一定的探讨,认为安全两方计算的构建要易于安全多方计算,同时影响协议的一个重要方面是用于计算评价函数的最佳组合电路的规模,而影响计算的因素则来自健忘传输协议以及

    17、协议的改进程度。Murat Kantarcioglu在文14中提出了一种数据水平分布下的针对关联规则的隐私保护数据挖掘算法。数据水平分布是指数据按照记录分布在各个站点,在此条件下,各个站点不必知道其他站点的具体记录信息,就可以计算出全局的关联规则。算法提出的目标就是各个站点除了知道全局的结果之外,对其他各站点的信息一无所知。算法通过两个步骤找出全局频繁项集:第一步使用交换加密的方法发现候选集。各个站点加密各自的频繁项集,然后将结果传递到下一个站点。传递的同时去掉重复的集合,整个过程一直持续到所有的站点加密完所有的项集,然后各个站点使用自己的密钥对得到的结果进行解密,最后得到一个公共的项集。第二

    18、步找出满足条件的全局频繁集。首先第一个站点计算由第一步得到的项集在本地的支持度与最小支持度阈值之间的差,然后加上一个随机数R,将结果传给下一个站点;第二个站点做与第一个站点相同的工作,同时加上第一个站点传来的值,接着将结果传递至下一个站点;依次直至传递完所有站点,最后的值传递回第一个站点。最后在第一个站点将结果与R比较,如果该值不小于R,则说明该项集为全局频繁项集。最后通过计算开销和通讯开销对上述算法进行了评价,同时Murat Kantarcioglu还提出了一些改进的方向。2.3数据垂直分布Jaideep Vaidya在文2中提出了一种数据垂直分布条件下的基于关联规则的隐私保护算法。垂直分布

    19、是指数据按照属性分布在各个站点,在这种条件下,可以通过发现项集的支持计数来进行数据挖掘。如果某个项集的支持计数可以被安全地计算,那么通过检查计数和预先设定的阈值比较,就可以知道该项集是否是频繁项集。Jaideep Vaidya通过安全地计算代表子项集的标量积的方法来得到项集的支持计数。在这里,作者同样将目标数据库视作是由固定长度的0、1序列构185保护技术大体上可基于下面因素对它们分类:数据分布、隐私保护技术、数据或规则更改方法、数据挖掘算法。表1所示的是根据数据分布方式对现有一些典型算法的一种划分。下面将着重对其进行归纳和介绍。表1隐私保护算法分类数据分布方式隐私保护技术数据更改方法数据挖掘

    20、算法文献集中式启发式滑动窗口法关联规则5随机修改部分值为1的数据为0关联规则7添加随机数关联规则15重建式添加随机偏移量分类12随机修改部分数据关联规则10贝努里概率模型关联规则11水平分布加密式加密、添加随机数关联规则14垂直分布加密式加随机数关联规则2其他15、16、17、18、192.1数据集中分布2.1.1启发式技术针对数据挖掘中的隐私保护,很重要的一个方面都是集中在对关联规则的应用,从根本上来说都是通过各种方法来降低敏感规则的支持度或者置信度,由此诞生出了分类、聚类等方法来发现敏感规则或者敏感数据。理论上说,这些技术都是基于一种假设,即选择性的数据清理与修改是一个NP-Hard问题。

    21、而启发式算法在解决这一问题上,可以省略大量无谓的搜索路径,提高效率。(1)基于关联规则的隐私保护Stanley R.M.Oleveira和Osmar R.Zaiane在文5中提出一种基于启发式的隐私保护方法,该算法通过一种单次扫描算法来实现对敏感规则的保护。与其他的混乱式的方法不同,混乱式的方法是通过修改现有数据或者在原始数据中添加随机数据达到隐藏敏感规则的目的。而Stanley R.M.Oleveira提出的算法是一种非混乱式的算法,该算法通过移除部分信息的方法实现数据清理,从而隐藏敏感规则,并不对原始数据库添加任何噪声,文中称作是滑动窗口的算法。具体讲,设D是交易数据库,Rr是敏感规则,R

    22、r是非敏感规则,R是D中全部的关联规则,可以看出Rr Rr=R。只要交易中包含有任何敏感规则,那么它就被称作是敏感交易。为了达到隐藏敏感规则的目的,就必须对原始记录中涉及到敏感规则的敏感数据项进行处理,通过去除部分敏感项,使得规则在某种阈值范围内隐藏,而那些候选要被去除的敏感项在文中被称作是牺牲项(victim i-tem)。从具体实现上,数据库D被分成若干组数据交易,每组交易包含有K个记录,K称作是窗口大小。数据清理的过程分为5个步骤,第一步,从D中找出所有的R,同时区分出Rr和Rr,并把Rr直接复制到处理后的数据库D;第二步,选取在当前交易敏感规则中出现频率最高的项作为牺牲项;第三步,通过

    23、设定暴露阈值,计算要清理的交易数量;第四步,针对每一个敏感规则,对前一步中的敏感交易按照其规模进行排序,将规模最小的作为被清理的对象,以达到对原始数据的影响尽可能地小;第五步,删除每条敏感规则中的敏感项,将清理后的数据复制到不含敏感规则的数据库D。最后使用清理敏感规则后生成的数据库D公布给外界,以此达到保护隐私的目的。Stanley R.M.Oleveira等人还在文6中提出了类似的方法,算法通过一个基于倒排文件索引和布尔查询的交易检索引擎来实现对数据库的清理,同样是通过减少敏感规则中的敏感数据,达到支持度的降低,从而实现对敏感规则的隐藏。同时文中针对算法提出了三条评价标准:Hiding Fa

    24、il-ure,也就是从清理后的数据库D中发现敏感规则的百分比;Misses Cost,即在清理数据库D中隐藏的非敏感规则所占的比例;Artifactual Pattern,即虚假的规则所占的比例。Elena Dasseni等在文7中提出了一种基于混乱的方法,通过隐藏与敏感规则相关的频繁项集,以及通过设定阈值来减少置信度,防止敏感规则的产生。在其具体实现上,是通过将频繁项集中的二进制数反转,即数值为1的变为0,为0的数值变为1的方式。这样,隐藏关联规则的方法存在一个很明显的缺点,就是会产生一些“影子规则”(ghost rules)4,因为通过以上的反转,将会使得一些原本是非敏感的规则变为“敏感规

    25、则”。(2)基于分类规则的隐私保护分类是这样一个过程,它找出描述并区分数据类或概念的模型或函数,以便能够使用模型预测类标记未知的对象类。导出模型时基于对训练数据集(即其类标记已知的数据对象)的分析3。分类的目标就是要构造一个分类模型,从而预测未来的数据趋势。从目前来看,分类采用的方法主要有分类规则、决策树、神经网络等。而基于隐私保护的分类技术则是要在数据挖掘过程中建立一个没有隐私泄露的准确的分类模型8。文9中提出的一种隐私保护方法就是结合了分类规则以及一种称作是吝啬降级法(parsimonious downgrading)。吝啬降级法是这样的一种算法:针对要降级的数据中将要去掉的信息的一种形式

    26、化描述,其中所谓的降级是指从敏感级或隐私级(称之为高级别)降低到可以公布级(低级别)。算法的主要目标是要找出由于修改而导致的数据库功能性的损失是否是值得的。就其实现而言,算法通过产生一个称之为参变量基础集的方法来实现数据的降级。使用一个参数0,1来取代敏感数据(表示某种属性取得一个可能的值的概率)。同时对于降级前和降级后的数值的熵进行计算,使用二者的差值同数据库变化前后置信度的降低程度比较,从而得出这种对数据库的修改是否是可以接受的,也即是否对数据库的影响是最小的。2.1.2重建式技术(1)基于关联规则的隐私保护A.Evfimievski等在文10中提出了一种基于重建式的隐私保护算法,该算法使

    27、用了一种称之为统一随机化的方法(Uniform Randomization)。所谓的统一随机化是指在将一个交易发送给服务器前,客户端取走每一个项时,将之以概率p替换为原先在交易中没有的新项,这个过程叫做统一随机化。算法针对的是分类数据(categorical data),重点是为了发现关联规则挖掘中的频繁项集。文中对隐私漏洞(Privacy Brea-ches)进行了定义,提出了使用“select-a-size”和“cut-and-paste”等随机运算符来修改原始数据,控制隐私漏洞的发生。184863项目资助(编号:2002AA414060)和2005年陕西省自然科学基金资助(编号:2005

    28、F05)。陈晓明硕士研究生,主要研究方向为Web数据挖掘及Web应用;李军怀副教授,主要研究方向为分布式计算、CSCW;彭军副教授,主要研究方向为计算机应用、网络安全;张璟教授,博士生导师,主要研究方向为Internet技术及应用;刘海玲硕士,研究方向为分布式计算、Web服务。表1孤立点挖掘结果列表孤立点序号会员编号X1 X2 X31 464 51 48484 507742 708 11 56984 418913 535 14 56284 323814 978 15 52322 434625 989 11 44453 343736 1071 17 56191 402527 302 26 369

    29、46 557408 938 31 55304 45005表2三个指标的平均值与标准差X1 X2 X3平均值13.392 13391.4 12999.33标准差3.285 7611.83 5831.29表3各指标相关系数X1 X2 X3X1 1.0000 0.3980 0.5390X2 0.3980 1.0000 0.9238X3 0.5390 0.9238 1.0000从表3可以看出,各指标存在一定的相关性,有必要用独立成分分析的方法对原指标数据进行处理。从表1与表2可以看出,孤立点1,7,8的三个指标都很明显偏离中心值,孤立点2,3,4,5,6,7的指标X2,X3偏离中心值,与实际情况基本相

    30、符合。如果孤立点数据被确定,应当对其内容进行细查,根据其特征和挖掘目的而确定其是否为真正的孤立点数据。我们从该航空公司的会员信息表中查询,确认对表1中列出的八个会员为该航空公司的金卡会员,是重点客户,这也说明了IMVOM模型的合理性。小结一般高维数据的内部十分复杂,很难被探测,而人眼视觉对二维的几何空间分布却有着绝佳的分析能力,如果能够将高维数据资料转成人眼可以观察到的图形的话,对于高维数据的孤立点挖掘将是很有帮助的。本节在ICA与MViSOM的基础上提出了一个IMVOM孤立点挖掘模型,IMVOM模型先通过ICA去除了数据之间的相关性,并通过MViSOM算法保持数据之间一定的拓扑结构不变性,并取得数据的可视化


    注意事项

    本文(隐私保护数据挖掘算法综述陈晓明.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开