欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    大数据审计技术与案例交流.pptx

    • 资源ID:18941636       资源大小:1.59MB        全文页数:42页
    • 资源格式: PPTX        下载积分:15金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据审计技术与案例交流.pptx

    1、 大数据审计技术与案例交流前 言 胡泽君审计长明确指出:“审计信息化建设必须加强,必须与时俱进、驰而不息地大力向前推。这是我们适应国家治理体系和治理能力现代化的要求,也是努力实现审计技术现代化的重要途径和手段。提高在信息化环境下查核问题的能力,是审计人员必须具备的基本素质”。袁野副审计长指出:要探索大数据在审计中的实践和应用,坚持“数据先行”和“数据引领”,打破信息壁垒和信息孤岛。目录审计大数据分析现状1234大数据分析三原则案例交流体会与展望审计大数据分析现状审计大数据分析现状1VolumeVolume:数据量巨大:数据量巨大VelocityVelocity:时效性要求高:时效性要求高Var

    2、ietyVariety:数据形态多变:数据形态多变VeracityVeracity:数据可信度存疑:数据可信度存疑关系型数据库、关系型数据库、NoSQL数据库、数据库、数据仓库、爬虫、云计算数据仓库、爬虫、云计算统计学方法、机器学习、自统计学方法、机器学习、自然语言处理、人工智能然语言处理、人工智能二维表、柱状图、饼图、二维表、柱状图、饼图、关系图、热力图关系图、热力图123数据采数据采集存储集存储数据分数据分析技术析技术数据数据可视化可视化方法方法来源来源形态形态数量数量相相对对比比较较单单一一,绝绝大大部部分分使使用用SQLSQL语语言言分分析析的的阶阶段段,新新技技术术新新方法使用较少方

    3、法使用较少数数据据来来自自各各个个不不同同部部门门,可可靠靠程程度度总总体体较较高高,但但互互相相之之间间普普遍遍缺缺少关联少关联绝大部分为关系型数据库,还有少绝大部分为关系型数据库,还有少量是非结构化文档和半结构化表格量是非结构化文档和半结构化表格数据量日益增加,从数据量日益增加,从TBTB级逐渐级逐渐增加到增加到PBPB级,且增速明显加快级,且增速明显加快找差异找差异数据互相关联数据互相关联不同来源的数据并库不同来源的数据并库数据清洗、转换、整理数据清洗、转换、整理采集各个部门的数据采集各个部门的数据审计人员戏称这种数据分析方式为连连看 +找你妹2采集更多的数据采集更多部门、更多领域的数据

    4、,采集以前不关注的、与财务、账务无关的数据尝试更新的方法尝试新的技术、工具和方法,对数据进行更加深入的挖掘提供更广的视角审计大数据不仅能够发现微观的问题和个案,更能从中观、宏观的角度来分析政策的执行情况与效果传统数据传统数据分析方法分析方法Excel表格表格关系型关系型数据库数据库SQL语语言言新的技术新的技术方法方法数据挖数据挖掘、图掘、图论等论等NoSQL数据库数据库爬虫等爬虫等新采集新采集工具工具二者不是对立而是相互关联的新技术方法是为了解决一些传统方法难以应付的问题比如 NoSQL 不是 No SQL,而是 Not Only SQL3No.1 No.1 总体分析总体分析No.2 No.

    5、2 趋势分析趋势分析No.3 No.3 结构分析结构分析总体分析总体分析发现异常发现异常我们分析了某省2014-2017年的税收情况,发现2015年其税收有了爆发性增长,但2016年迅速回落。趋势分析趋势分析找出税种找出税种我们分析了各个税种的变化趋势,发现2015年税收的增长主要来自企业所得税和个人所得税两个税种。结构分析结构分析深究原因深究原因我们深入分析了企业所得税爆发性增长的企业的利润表,发现其利润绝大部分来自于“投资收益”,而2015年恰逢股市牛市。延伸企业延伸企业分析政策分析政策我们选择了几家金额较大,且投资收益占比超过95%的企业延伸,发现其几乎没有实体经营行为,仅仅是帮助母公司

    6、利用当地开发区的税收优惠政策进行股票减持。自此,该省税收优惠政策形成事实上的税收“洼地”的情况已基本摸清。资产端数据负债端数据中间业务数据银行机构的财务数据工商、税务、环保等外部数据问题来了:审计一家国有商业银行需要采集分析哪些数据?手机银行用户登录的GPS定位信息用户登录后查看了哪些页面和产品手机银行用户绑定的手机IMEI串号网银用户登录的MAC地址和IP地址用户行为数据用户行为数据H行采购中的问题H行设备供应商某商贸公司B君A君采购决策人采购决策人法定及股东法定及股东A君之子定期转钱定期转钱MACMAC地址地址IPIP地址地址重合度很高!重合度很高!审计人员发现某商贸公司向A君之子转账都采

    7、用网银,调取用户行为系统数据后发现,该商贸公司与A君的个人账户经常在同一个IP地址和同一个MAC地址的计算机上登录和操作!领导谨慎对待:这仅仅提供了可能是同一控制人的线索,如何坐实?H行IP地址1IP地址2党校控制控制人人手机手机绑定绑定手机手机定位定位汇集汇集多个农户的个贷多个农户的个贷资金向少数几个资金向少数几个账户汇集账户汇集查查 看看 登登 录录 IPIP和和MACMAC判判断断是是否否为为同一实际控制人同一实际控制人对同一部手机绑定多个对同一部手机绑定多个不同人员账号的情况以不同人员账号的情况以及手机频繁绑定解绑的及手机频繁绑定解绑的情况予以关注情况予以关注根据手机根据手机GPSGP

    8、S定位定位找到获得涉农贷款找到获得涉农贷款的农户经常登录位置的农户经常登录位置在城市的予以关注在城市的予以关注案例三:涉农贷款分析添加标题添加标题对交易流水中的数千万个账号进行快速聚类,将发生过交易的账号聚在一起。添加标题添加标题锁定一个账号聚类中资金最终汇聚的账号,即最重要的那个账号。添加标题添加标题请对账号进行进一步分析和延伸调查,确定问题。常规的做法是选出跟大于给定阈值的个人账户发生交易的账户,或是选出与个人账户交易总金额大于给定阈值的账户。比如选出有20个以上个人账户给它转入资金的账户,或是选出从个人账户归集资金金额超过300万元的账户。DEABC某公司某公司DEABC某公司某公司甲甲

    9、乙乙丙丙把关系抽象成图把关系抽象成图把实体比如账号抽象成顶点,顶点之间发生了关系(比如A向B转账)就在其间用一条有向边将其连接起来问题就转化为了先将顶点分成几个连通区域(Connected Components),然后在各个区域中找到最重要的汇集的那个节点数据清理广度优先搜索获取连通区域PageRank算法找寻重要顶点回归原始数据锁定疑点账号图算法的应用图算法的应用PageRankPageRank算法简介算法简介以前解决网页排序的方案以前解决网页排序的方案遇到的困难与挑战遇到的困难与挑战PageRank算法的思想算法的思想移植过来,解决审计需求移植过来,解决审计需求关键字词频关键字词频人造高词

    10、频,严重干扰算法执行人造高词频,严重干扰算法执行被更多的账户转账,或者被更重要被更多的账户转账,或者被更重要的账户转账,这个账户就越值得关注的账户转账,这个账户就越值得关注被引用越多,被越重要的被引用越多,被越重要的顶点引用,才越重要顶点引用,才越重要 PageRank算法是谷歌的创始算法是谷歌的创始人人Sergey Brin与与Larry Page于于1998年在年在WWW7会议上提会议上提出来的,用来解决链接分析中出来的,用来解决链接分析中网页排名的问题,衡量一个网网页排名的问题,衡量一个网页排名的算法。页排名的算法。借助第三方库来实现借助第三方库来实现Python iGraphPytho

    11、n iGraphPython Graph-ToolPython Graph-ToolPython NetworkxPython NetworkxDEABC某公司某公司计算结果计算结果节点节点A-EA-E:0.093023 0.093023某公司:某公司:0.5348840.534884计算结果计算结果DEABC某公司某公司甲甲乙乙丙丙节点ABCDE:0.047365节点甲乙丙:0.137359某公司:0.396092找问题就找问题就是找关系是找关系图数据库自带了图数据库自带了诸如深度优先、诸如深度优先、广度优先遍历,广度优先遍历,最短路径等算法最短路径等算法传统的传统的RDBMSRDBMS弱于

    12、处理关系弱于处理关系图的模型对于分图的模型对于分析关系更加直观析关系更加直观图数据库常见应用场景已知一个顶点,查询所有跟它有某些关系的顶点已知两个顶点,查询它们之间所有存在的关系已知两个顶点,查询它们之间的最短路径接下来请大家看我做一个简单的演示接下来请大家看我做一个简单的演示查看发票的集中度、进销项差等,锁定疑点目标查看发票的集中度、进销项差等,锁定疑点目标通过工商找到关联企业,再查找有没有发票路径通过工商找到关联企业,再查找有没有发票路径按照集中度高的原则选取了按照集中度高的原则选取了J J集团的十大上下游企业集团的十大上下游企业采集了国税电子底账系统数据和工商数据采集了国税电子底账系统数

    13、据和工商数据某科技发展公司某科技发展公司某钢材贸易公司某钢材贸易公司某机电设备公司某机电设备公司J J集团物资公司集团物资公司某贸易有限公司某贸易有限公司某工贸有限公司某工贸有限公司某钢研有限公司某钢研有限公司J J集团物资公司集团物资公司某科技股份公司某科技股份公司进一步数据分析发现,中间的这些公司基本仅与上述公司有增值税发票,且进项与销项差额很小。去企业延伸后得知,J集团物资公司从上游购买货物是现货交易,而卖给下游公司则是赊销方式,实际根本不掌握货物,其实质是违规开展融资性贸易。Neo4jOrientDB最早流行的图数据库,发布于2007年,用Java和Scala开发,使用自定义的Cyph

    14、er查询语言。主流的图数据库主流的图数据库ArangoDB高可用多模型数据库,发布于2012年,用C+和JavaScript开发,使用自定义的AQL查询语言分布式多模型数据库,发布于2010年,用Java开发,使用扩展的类似SQL的查询语言图数据库与图算法的比较图数据库实现了部分图算法,并为用户提供了简便的查询方式图数据库提供了方便的存储管理功能,而图算法需要借助其他存储手段图算法还有很多没有在图数据库中实现,图算法灵活性更高图数据库是内存杀手,需要配置很好的设备才能发挥作用4数据清理不可或缺数据的采集清理我们要不等不靠数据采集是基础用爬虫技术去抓取部委网站上的一些非结构化数据,比如政策文件、

    15、处罚名单等用自然语言处理技术去分析非结构化文本,比如会议纪要、政策文件等用图算法和图数据库去分析数据中存在的各类关系机器学习、数据可视化等技术应该也大有用武之地可能会涉及的领域可能会涉及的领域非现场审计的作用和重要性会大大提升!PythonPython数据整理数据整理Pandas NumPyPandas NumPy图算法库图算法库igraph networkxigraph networkx机器学习机器学习Scikit-LearnScikit-Learn爬虫、自然语言处理爬虫、自然语言处理ScrapyScrapy、JiebaJieba图数据库图数据库数值计算分析数值计算分析SciPySciPy2

    16、5%50%75%100%其它其它了了解解大大数数据据分分析析常常用用的的技技术术,重重点点在在于于了了解解名名词词和和概概念念,明明白白一一个个技技术术的的应应用用场场景景,而而不不必深入其技术细节。必深入其技术细节。对对于于计计算算机机审审计计人人员员来来说说,Python很很 可可 能能 将将 成成 为为 继继SQL之之后后的的又又一一门门必必知知必必会的语言。会的语言。与与高高校校和和公公司司的的合合作作可可能能会会更更多多更更紧紧密密。大大数数据据分分析析技技术术门门槛槛更更高高,在在把把审审计计业业务务人人员员培培养养成成数数据据分分析析骨骨干干的的同同时时,更更需需要要让让专专业的人来做专业的事情。业的人来做专业的事情。审计方式的可能转变审计方式的可能转变不得不说的几个问题不得不说的几个问题问题问题与与思考思考大数据分析不是万能的,也有其问题和瓶颈大数据分析不是万能的,也有其问题和瓶颈大数据技术尚处于试验阶段,很多技术尚未成型大数据技术尚处于试验阶段,很多技术尚未成型大数据分析需要投入大量的人力、时间和经费大数据分析需要投入大量的人力、时间和经费Questions?謝謝您的聆聽愿与大家多切磋交流


    注意事项

    本文(大数据审计技术与案例交流.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开