欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    从纸质出版到数据库建设出版业转型路径探究.docx

    • 资源ID:11781629       资源大小:20.93KB        全文页数:6页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    从纸质出版到数据库建设出版业转型路径探究.docx

    1、从纸质出版到数据库建设出版业转型路径探究从纸质出版到数据库建设:出版业转型路径探究 摘 要 首先从历史角度考察纸质出版,认为就具体形态而言是以纸为媒介“镌著于版”“印行于世”的行为,其本质是“信息生产与传播”行为。其次指出互联网时代,纸质出版的价值犹在,但基于数据的生产与传播为大势所趋:数据库是面向特定主题,集成的、相对稳定的、具有统一格式的、能反映历史变化的数据集合,数据库建设是将“孤立、静态和碎片化”的文本数据转化为“关联、动态和整体性”的结构化数据工程。最后,以自然灾害类突发事件中的旱灾数据库建设为例,探讨数据库建设的意义,介绍数据库建设的基本步骤,以期为出版业的转型提供新思路。 关键词

    2、 纸质出版 数据库建设 大数据 出版业转型 Abstract Paper-based publication uses paper as a medium to “engrave in the wood block for printing” and to “publish to the world”. Its essence lies in the process of information production and communication. In the era of the Internet, the value of paper-based publishing remain

    3、s apparent, yet the production and communication based on data has become a trend. A database is a data set established for a specific topic, and it integrates relatively stable data in a unified format and reflects certain historical changes. Database development is the attempt to translate the “is

    4、olated, static and fragmented” text-data into “related, dynamic and integral” structured data. Using “Natural Disasters: Drought” database as an example, this paper discusses the significance of database establishing, and introduces the basic steps of database setup. In doing so, it provides fresh i

    5、deas for the possible transformation approaches for the publishing industry. Key words Paper-based publication Database development Big data Transformation of publishing industry 传统的纸质出版,主要是将文字或图表印刷在纸介质上并向公众发行,其生产方式是“物化”复制的过程,其发行方式是实体印刷品基于物理空间的位移过程。随着互联网与大数据时代的到来,纸质出版的价值犹在,但基于数据的生产与传播已是大势所趋。对出版业来说,当

    6、下不仅要提升传统的编辑能力和印刷能力,还应大力提升对大数据的处理能力。出版企业大都拥有一笔宝贵的财富,即多年经编辑加工而成的图书或音像制品。它们中的大多数作为非结构化、半结构化的数据“沉睡”在那里,如果仍以“物化”复制的方式重新刊印,未必能获取足够的市场价值;但若将这些数据基于特定主题建设数据库,则可能使其“苏醒”且价值倍增。本文以“自然灾害旱灾(20012010年)数据库”建设为例,介绍如何对非结构化、半结构化数据进行结构化处理,以期为传统出版业的转型提供新思路。 1 “出版”的本质是“信息的生产与传播” 随着以互联网为代表的新媒体技术的广泛普及,传统出版业面临的困境及转型策略一直是学界与业

    7、界关注的焦点。探究出路往往需溯本求源,反思何为“出版”? “出版”一词起源何时目前尚无定论。朱光暄认为“出版”一词最早出现于光绪二十八年(公元1902)梁启超的敬告我同业诸君一文中1;林穗芳认为“出版”一词19世纪末借自日语2;吉少甫认为“出版”一词最早是在梁启超1899年8月发表的自由书一文中使用的3;王益认为1879年黄遵宪与日本学者龟谷省轩的“笔谈”中最先使用此词4;王振铎认为“出版”一词最早出现在1833年8月1日创办于广州的东西洋考每月统记传的编辑序言中5,等等。尽管“出版”一词在汉语中的历史并不悠久,但汉语中表示出版行为的词汇却早已有之,如唐宋年间即有“上梓”“梓行”“刊行”“开板

    8、”“板印”之说6。辞源中表示出版行为的用语有“刊行”“板本”“印板”“镌印”“雕版”“刊刻”等7。分析上述文献,可以发现“镌著于版”“印行问世”8大体表征“出版”之义。 此外,一些法律条文对何为“出版”也进行了界定。日本明治20年(1887年)的出版条例规定:“凡以机械、化学或任何其他方法印刷之文书图画予以发售或散布者,均为出版”9。世界版权公约将“出版”界定为“作品以有形形式复制,并把复制件向公众发行,使作品能供阅读或观赏”10。我国北洋政府制定的出版法规定:“用机械或印版及其他化学材料印刷之文书图画出售或散布者,均为出版”11。我国现行出版管理条例规定:“本条例所称出版活动,包括出版物的出

    9、版、印刷或者复制、进口、发行”12等。上述法规对“出版”的界定虽表述不一,但“印刷”和“发行”是其共有的特征,二者分别对应的是出版过程的生产环节与流通环节,缺其一不能称之为出版。 综上,我们认为将文字与图表印刷在纸媒介上并加以发行只是纸质出版的具体形态。究其本质,出版是“信息的生产与传播”行为。在不同的历史时期、不同的技术条件下,出版的具体形态各异,但生产信息、传播信息的本质不变。 互联网技术对传统的信息生产与信息传播方式所带来的变化是颠覆性的。现今时代对出版企业而言,提升对数据信息的生产能力与处理能力是其转型的重要趋势之一。其中,需要厘清的一个重要问题是出版业的“数字化”转型并不等于“数据化

    10、”转型。“数字化”是将原来基于印刷等生产行为生成的符号转换成用“0”和“1”表示的二进制码13;或者说,是将模拟数据变成计算机可读的数据,从而在传播介质上摆脱了对纸、光盘等有形之物的依赖。而“数据化”是“一种把现象转变为可制表分析的量化形式的过程”14。通俗地讲,就是“让数据发声”的过程。二者有本质的区别。因此,对于出版业转型来说,只是将原有出版资源转变为计算机可读的数据(这些数据大多为非结构化、半结构化的)远远不够,还必须在此基础上对这些海量数据进行结构化处理与深度挖掘。这也正是建设数据库的意义和价值所在。 2 数据库建设的意义 数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据

    11、集合15。它可以形象地理解为一种格式一致的多元数据存储中心。其数据可以来自出版系统、也可以来自媒体报道和政府部门通报等;可以按统一定义的格式被提取出来,再通过清洗、转换、集成,最后百川归海,加载进入数据库16。对出版企业而言,加强数据库的建设主要有以下几个方面的意义。 一是重新定义出版行业的核心竞争力。对于传统出版行业而言,其核心竞争力可能是编辑水平、印制能力和发行能力,但未来出版企业的核心竞争力之一主要体现在对大数据的利用水平上。对大数据的利用需要有两个基本条件:一是拥有庞大的数据规模;二是掌握丰富的数据处理资源(包括专业人才、资金、平台、数据搜集高权限等)。两者缺一不可。一般的自媒体和非专

    12、业媒体机构很难同时具备这两个条件。因此在大数据时代传统出版企业依然具备巨大的发展潜能,也就是可以通过大数据重构自身作为专业信息生产与传播机构的核心竞争力。 二是更新出版行业的资源整合方式。过去出版行业主要是按书名或书籍涉及的领域进行资源整合。这种整合方式是表层的,主要作用是易于检索,无法对资源进行深层次利用。数据库建设则是按照不同主题制定统一的数据指标,对所有相关的非结构化、半结构化的数据进行结构化处理。以 “突发事件数据库自然灾害旱灾”(以下简称“旱灾数据库”)为例,就是以“干旱”为主题的数据库,需要采集相应时空条件下所有关于干旱的数据,并制定统一的数据处理标准。例如,对干旱的发生时间、持续

    13、时间、发生地点、波及地域、对人员生命财产造成的损失等数据进行结构化处理,并将这些数据存储到数据库中,以实现数据资源的持续利用,在数据层面实现信息资源的“完全燃烧”。 三是创新出版行业的服务方式。出版企业搜集数年来关于某类主题的数据建立数据库,通过大数据挖掘可以清楚地了解到某类事件发生的地域分布、时间分布、演化过程等总体趋势,可以与其他数据“叠加”进行相关性分析等,并以此为基础为用户提供大数据服务。用户通过对旱灾数据进行挖掘分析,得出来的结论不仅可以为相关部门的灾害应对提供决策依据,而且可以为广大农民、涉农企业的生产经营提供数据支持。 3 数据库建设的步骤 数据库的建设主要包括数据采集、数据清洗

    14、、数据结构化处理、数据存储、数据挖据、可视化呈现等步骤。下面以“旱灾数据库(20012010年)”的建设为例作具体介绍。 数据采集。设计网络爬虫程序,按照设定的关键词,自动抓取互联网上相关主题的所有数据信息,并按照一定的规则储存。就“旱灾数据库”而言,主要是通过设定关键词的方式,对目标站点的数据信息自动进行抓取,并将采集后的数据按照相应的规则存储。 数据清洗。对网络爬虫程序采集到的数据“去杂”的过程,也就是将与数据采集规则不符的数据尽可能去除。对旱灾来说,凡不属于对灾害本体进行描述的数据、超出事先规定区域之外的数据等都应去除。 数据处理。这是对采集的非结构化或半结构化数据进行结构化处理的过程。

    15、此步骤为数据库建设的关键步骤,直接影响数据挖掘的精确性和数据库价值的大小。具体到“旱灾数据库”,主要由“本体要素表”“影响损失表”“应对措施表”“舆情应对表”4个部分构成,且各部分都有自己特定的填写格式。对干旱灾害的数据处理,即将所有的关于干旱灾害的时间、地点、等级、影响、应急措施、舆情应对等根据各表格的填写格式,按统一的数据指标分别填写到对应的表格中。 数据存储。将结构化数据加载入库的过程。对干旱灾害而言,即统一集成各部分的结构化数据表格,搭建“旱灾数据库”的过程。 数据挖掘。曾一度被称为“基于数据库的知识发现”(Knowledge discovery in database),是指“有组织

    16、有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术”17。对于出版行业而言,大数据挖掘的最主要应用就是对于不同主题数据库的联机分析和相关关系分析18。具体到“旱灾数据库”的数据挖掘,一方面要对干旱灾害的关键要素进行处理、呈现;另一方面要对灾害发生时伴随发生的其他现象进行相关性分析。此举不仅可以使用户从微观上把握某一具体灾害,而且可以从宏观上对干旱灾害的时空分布规律进行准确把握。香港科技大学龚启圣教授曾经收集过去2000余年中原省份的气候数据,包括每年降雨量、旱灾、水灾,以及北方游牧民族攻打中原的时间和次数等,并根据这些数据进行深入挖掘,结果发现:任何

    17、十年里,多一年旱灾会使游牧民族在那十年里攻打中原的概率增加26%19。 本课题组采集了20012010年10年间我国旱灾的全部数据,通过大数据分析,我们发现干旱灾害发生后往往引发相应的自然类衍生灾害、公共卫生类衍生灾害和社会安全类衍生灾害。自然类衍生灾害主要包括水库干涸、河流断流、森林火灾、虫灾、沙尘暴、草场退化、湿地生态破坏、咸潮和蓝藻等。公共卫生类衍生灾害包括肠道传染病、呼吸道疾病、皮肤病等,其中干旱灾害与肠道传染病集中爆发的相关性不易为人们的直观经验所发觉。大数据挖掘显示出的相关性,其背后往往存在因果性干旱灾害往往会造成河流断流和水库干涸,使饮用水源过于集中,一旦水源受污染,便极易造成肠

    18、道传染病的爆发。此外旱灾还会引发社会安全类衍生灾害,如农村村民因抢水械斗、群体上访和围攻水管单位等。 可视化呈现。可视化呈现是指“以图形、图像、地图、动画等更为生动、易于理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解使用数据分析的结果”20。就“旱灾数据库”而言,其可视化呈现至少有3种途径可资参考:一是时间线,用以展现干旱灾害在时间维度上的演变;二是数据地图,用以展现干旱灾情基于地理位置的分布;三是交互性图表,用以展现干旱灾害本体及其影响之间的关联性。通过数据的可视化呈现,能够使受众在脑海中迅速形成关于灾害及其相关性的直观印象,提高人们对干旱灾害的认识能力和预测预警

    19、能力,将干旱灾害带来的损失降到最低程度。 对传统出版行业来说,从纸质印刷到数据库建设,就信息生产方式而言是一次颠覆性的变革,但这种“颠覆性”会产生巨大的价值。不同专业背景的出版社可根据自身的特点,建设不同主题的数据库。例如,卫生行业的出版社可与医疗行业联合建设若干涉及人体健康的数据库,教育行业的出版社可与各类教育机构联合建设若干关于教育的数据库,如此等等,只要深入挖掘,可谓资源无限、潜力无穷。正如维克托迈尔-舍恩伯格教授所说,“数据就像一个神奇的钻石矿它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。”21 注 释 1朱光暄, 薛钟英, 王益. “出版”探

    20、源J. 出版发行研究, 1988(5): 51-53 269 林惠芳. 明确“出版”概念 加强出版学研究J. 出版发行研究, 1990(6): 13-20 3吉少甫. “出版”考(续)J. 出版发行研究, 1991(5): 62-62 4王益. “出版”再探源J.出版发行研究,1999(6): 8-9 58王振铎.“出版”史论J.出版发行研究,2006(10): 26-29 71011胡国祥.“出版”概念考辨J. 武汉大学学报(哲学社会科学版),2008(3): 437-442 12徐力.“出版”概念及其在数字化网络环境下的再认识J. 出版发行研究,2012(7): 55-57 131421维克托迈尔一舍恩伯格,等. 大数据时代M. 杭州:浙江人民出版社,2013 : 104-127 151620涂子沛. 大数据:正在到来的数据革命M.桂林:广西师范大学出版社,2012:86-99 17谭磊.New Internet:大数据挖掘M.北京:电子工业出版社,2013 : 23 18张振宇,周莉.“大数据出版”的理念、方法及发展路径J.出版发行研究, 2015(1): 14-17 19陈志武.量化历史研究告诉我们什么? EB/OL.2013-09-17. http:/


    注意事项

    本文(从纸质出版到数据库建设出版业转型路径探究.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开