XX市档案局档案数字化加工项目Word格式文档下载.doc
- 文档编号:3957982
- 上传时间:2023-05-02
- 格式:DOC
- 页数:65
- 大小:6MB
XX市档案局档案数字化加工项目Word格式文档下载.doc
《XX市档案局档案数字化加工项目Word格式文档下载.doc》由会员分享,可在线阅读,更多相关《XX市档案局档案数字化加工项目Word格式文档下载.doc(65页珍藏版)》请在冰点文库上搜索。
3.10. 档案目录著录 20
3.10.1. 数据格式选择 20
3.10.2. 标引著录 20
3.10.3. 录入方式 21
3.10.4. 校对方式 21
3.11. 单层纯图像PDF文件生成 21
3.11.1. 工作内容 21
3.11.2. 制作标准 21
3.11.3. 实现方法 21
3.11.4. 输出数据 22
3.12. 双层PDF文件生成 22
3.12.1. 工作内容 22
3.12.2. 制作标准 22
3.12.3. 实现方法 23
3.12.4. 输出数据 24
3.13. 数据存储 24
3.13.1. 存储格式 24
3.13.2. 存储文件的命名 25
3.14. 数据挂接 25
3.15. 数据验收 25
3.16. 数据备份 26
3.17. 数字化成果管理 27
3.18. 档案归档 27
3.19. 成品数据 27
4. 技术方案二:
只制作JPEG格式文件 29
4.1. 生产流程配置 29
4.2. 资料提取和归档 30
4.3. 规范库和工程信息库建设 30
4.4. 数字化内容组织 30
4.5. 档案整理 31
4.6. 档案扫描 31
4.7. 图像处理 31
4.8. 档案目录著录 31
4.9. 数据存储 31
4.9.1. 存储格式 32
4.9.2. 存储文件的命名 32
4.10. 数据挂接 32
4.11. 数据验收 33
4.12. 数据备份 33
4.13. 数字化成果管理 34
4.14. 档案归档 34
4.15. 成品数据 34
5. 项目服务方案 36
5.1. 服务承诺 36
5.2. 数据交付和验收 36
5.2.1. 方正自检部分 36
5.2.2. 合格数据验收 37
5.3. 项目实施进度安排和资源配置 37
5.3.1. 工期要点 37
5.3.2. 本项目扫描仪等设备的配备数量(暂定) 38
5.3.3. 任务的划分(暂定) 39
5.3.4. 扫描生产计划(暂定) 40
5.4. 售后服务 40
5.4.1. 实时远程技术支持服务 40
5.4.2. 热线电话 41
5.4.3. 技术服务网站支持 41
5.4.4. 现场技术支持服务 41
5.5. 培训 41
5.5.1. 数据管理维护培训 41
5.5.2. 相关技术培训 42
附录一:
公司介绍 43
(1)公司总体情况 43
(2)方正数据处理中心介绍 44
(3)公司资质与荣誉 45
(4)方正的优势 46
附录二:
成功案例 48
(1)国礼-中华数字书苑 48
(2)新闻出版总署 49
(3)国家图书馆地方志第四期数字化加工方案介绍 49
(4)天一阁 50
(5)民国期刊库 50
(6)国学要览数据库 51
附录三:
方正博通数字档案管理平台 52
(1)目前产品版本 52
(2)方正博通数字档案管理平台软件概述 52
(3)方正博通应用领域 53
(4)方正博通产品优势 63
(5)产品运行环境 63
(6)硬件部署建议 64
1.项目需求分析
1.1.项目概述
XX市档案局十分重视档案资源建设。
截止目前,馆藏档案全宗达到100个,计37637卷册,排架长度560米,其中包括革命历史档案和建市以来的文书档案、专业档案、特色档案、荣誉档案及寄存档案等。
馆藏档案的来源,一是定期接收市直机关、团体及部分企业单位应进馆档案及撤销单位档案;
二是收集、征集散存于社会的有深存价值的档案;
三是通过馆际交流从其它档案馆复制的与XX市有关的档案材料。
客户简介
为进一步提高档案服务水平,完善信息化建设,XX市档案局推出了本次“档案数字化加工项目”的规划建设,通过项目的实施,实现一般人员基础的调阅功能、研究机构和管理部门深层次的调查研究和管理应用的功能,提高办事效率和服务水平,具有十分重要的科技创新意义。
1.2.项目建设内容
本项目建设目标是对XX市档案局的档案资料进行数字化应用开发,接入方正提供的方正博通数字档案管理平台实现档案数字化系统应用。
关于方正博通数字档案管理平台的详细介绍请参见附录三:
方正博通数字档案管理平台。
方正提供数字档案管理平台
针对本项目,方正提出两种解决方案,一是通过图像识别编改制作PDF格式文件,最终提供的成品数据有PDF格式文件、JPEG格式文件、XML文件及TIF文件;
二是只制作JPEG格式文件,不提供PDF格式文件,最终提供的成品数据有JPEG格式文件、XML文件及TIF文件。
提供两种解决方案供选择
1.3.项目服务标准
(1)档案数字化的基本原则是使档案信息资源准确、方便、快捷地提供利用,以满足采购方对档案利用的需求。
(2)档案的数字化,必须符合国家档案开放规定以及有关规定,如《中华人民共和国档案行业标准DA/T31—2005档案数字化技术规范》、《中华人民共和国档案法》、《档案著录规则》(DA/T18—1999)、《档案分类标引规则》(GB/T15418—94)等。
(3)加强档案数字化各环节的安全保密管理机制,确保档案原件和数字化档案信息的安全。
(4)档案数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。
2.现场加工管理方案
本项目按照XX市档案局保密要求采取现场加工的生产模式。
XX市档案局提供必要的办公场所和电力等工作条件,方正提供人员、加工设备和软件平台,并按照XX市档案局的保密、安全要求去进行设备处理及网络布线,以及数字化加工中的软硬件,网络的维护工作。
遵照CMMI和ISO/IEC27001-2005对信息安全管理的要求并结合XX市档案局档案加工保密特性,方正签订保密协议,在XX市档案局的档案数字化加工过程中履行信息安全保密责任,具体体现在人员管理、设备管理和实时监控三方面。
2.1.现场人员管理
l现场服务人员资料在XX市档案局备档,办理加工场地现场出入证明。
l现场服务人员不得携带任何带有存储、照相功能的设备进入现场。
l现场服务人员需签订XX市档案局档案数字化生产加工保密协议,明确工作人员的保密义务和责任。
2.2.现场设备管理
lXX市档案局档案数字化生产加工过程中现场所使用的扫描设备,按涉密设备进行管理和使用,不使用无保密保障的扫描设备。
lXX市档案局档案数字化生产加工所使用的计算机及其存储介质,应当严格遵守计算机有关保密管理规定。
l服务区域内网络与其他网络完全物理隔离。
不得安装具有无线互联功能的硬件模块和联接无线鼠标、键盘等无线互联的外围设备。
任务完成后,应当继续按涉密计算机使用、管理,或者拆除硬盘。
l使用的移动硬盘、U盘、光盘等存储介质,按涉密载体进行管理,不得在非涉密计算机及其网络上使用。
2.3.实时监控
按照信息安全管理体系ISO27001的要求,对加工现场实施24小时实时监控,及时掌握现场加工状态,保证现场加工信息安全。
3.技术方案一:
制作PDF格式文件
3.1.生产流程配置
参考《中华人民共和国档案法》、《档案数字化技术规范》(DA/T31-2005)和《电子文件归档与管理规范》(GB/T18894-2002)等档案数字化加工国家法律法规,同时按照本项目档案资料特点,结合XX市档案局要求和方正多年数字化经验,方正专门配置的生产加工流程,力求做到扫描效率高、图像扫描清晰、数据不丢失、档案不凌乱、不损坏恢复原样、安全。
其加工流程如下:
以上是根据数字化加工需求所配置的流程,在此基础上根据数据规格和加工质量要求,将对基本环节的工艺进行进一步配置,方正按照以上加工要求定制一套生产加工流程并配置生产流程软件系统。
以下为详细介绍:
3.2.资料提取和归档
l方正到用户指定地点下架提取需加工档案,登记明细并打包运至指定的加工场地,提供现场加工服务。
档案提取登记表:
序号
档号
卷数
借出日期
借卷人
还卷日期
档案接收人
备注
1
001-010
10
2009.1.1
张三
2009.1.3
李老师
2
011-020
刘老师
3
021-030
l方正在档案数字加工过程中,对扫描档案进行编号和批次处理,形成基本的核对流程,杜绝漏扫或重复扫描情况出现。
l所有档案保证做到不损坏、不损失、原样归还。
l方正将已加工完成后的档案按照批次及时归还。
3.3.规范库和工程信息库建设
3.3.1.规范库建设
针对需进行加工的档案,建立基本属性对应的著录项目,并生成基本目录规范数据,同时为规范数据建立相应的代码识别体系,该代码识别体系将贯穿整个工程的信息交换和数据交换,避免出现信息和数据不一致的情况。
结合目录规范数据并通过智能检测模块可以有效的避免在数字化过程中可能出现的漏扫、重扫等情况。
3.3.2.工程信息库建设
通过对档案进行归类整理,在规范库基础上,根据工程各环节所需要公用的基础信息,将档案的基础著录项目抽取成为资料内部特征,建立信息标引配置数据库和相关流水线工艺文档,制定项目评价标准和环节控制标准等。
工程信息库与方正业务流程管理系统挂接,工程信息库在整个工程实施中会围绕基础信息,随着数据流转不断增加相关的信息,通过方正业务流程管理系统,可以实时的掌握每一批次、每卷档案的生产进展和所处环节,也能掌握到数据的状态、收发时间、生产责任人等相关信息。
3.4.数字化内容组织
l内容组织
按照生产模式,多卷档案可以形成一个批次,每个批次都有一个唯一的编号。
每卷档案在加工过程中也要形成一个唯一标识号。
档案以整卷为单位进行数字化处理,形成对应的各种过程数据和结果数据,如扫描影像数据、图像属性数据、索引信息XML文档等各类文档。
所有档案案卷都包含档案编号等著录项目必备的相关属性信息。
卷内文件按照目录数据著录。
对照档案原件,著录卷内文件索引信息的所有项,同时可以根据采购方的需要建立其他自定义的索引项。
l数据命名
图像存储文件(PDF格式、JPEG格式、TIF格式)、索引信息格式文件(XML文件)命名规则描述如下:
1.PDF格式文件、JPEG格式文件、TIF格式文件:
PDF文件、JPEG文件、TIF文件的命名以每卷案卷目录的目录项顺序统一编页后,每个文件都用唯一的页码标识。
2.著录索引信息XML格式文件:
一个图像文件对应一个索引信息文件,所以索引信息文件的命名同样以每卷案卷目录的目录项顺序统一编页后,每个索引信息文件和图像文件同名。
l存放规则
档案加工过程中的文件存放规则是按照每卷档案为一个根目录文件夹,文件夹内存放按照案卷目录排序的所有图像文件和索引信息文件。
以下是部分重要的数据加工环节介绍:
3.5.档案整理
Ø
目录数据准备
按照档案整理办法的相关要求,规范档案中的目录。
核对案卷信息,包括基本目录项信息以及其他可自定义目录项信息。
按照《档案著录规则》(DA/T18)等的要求,规范档案中的目录内容。
包括确定档案目录的著录项、字段长度和内容要求。
如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。
区分扫描件和非扫描件
在案卷领取交接后,将档案分类为加急扫描和普通扫描两种,一般流程设定下,加急档案3小时内完成扫描任务,普通档案24小时内完成任务。
在扫描之前,根据档案管理情况,按下述步骤对档案进行适当整理,并视需要做出标识,确保档案数字化质量。
页面处理
破损严重、无法直接进行扫描的档案,由XX市档案局专业人员先进行技术修复,折皱不平影响扫描质量的原件,按照档案管理规定先进行相应处理(压平或烫平等)后再进行扫描。
档案整理登记
1.确认档案袋内目录的记录是否与档案资料相符;
2.对档案袋的资料按照案卷目录上的目录项进行排序,并统一进行页码的编排;
3.如有目录与档案资料不符的情况,修改错误并进行相关信息记录。
3.6.档案扫描
参照国家档案局颁布的《档案数字化技术规范》中关于档案扫描的要求,方正制定以下扫描方案。
扫描分辨率及色彩模式
按项目要求,选择合适的扫描分辨率及色彩模式。
图像文件采用300DPI分辨率的彩色扫描模式,其余档案采用300DPI分辨率的黑白扫描模式。
扫描方式
扫描设备为平板式扫描仪或高速扫描仪。
纸张状况较差,过薄、过软或超厚的档案,通过使用平板扫描方式确保不损坏原始档案,对于纸张较好的档案用高速扫描仪进行扫描。
对于纸质太薄出现透字现象的要采用衬纸的方式进行扫描,保证图像的清晰度。
扫描登记
l对同一档案编号的文件及其附件,按目录号进行存储,不乱序,不混档,与目录进行挂接;
l不允许有折叠或缺损,保证图像的完整、端正、无扭曲;
l填写档案扫描过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
注:
因客户资料不能公开,遵照ISO27001的信息安全管理要求和与客户签订的数据保密协议,以下图片均经过处理。
【档案扫描界面】
【档案扫描设置界面】
3.7.图像处理
参照国家档案局颁布的《档案数字化技术规范》中关于档案扫描的要求,方正制定以下图像处理方案。
3.7.1.图像数据质量检验
图像数据质量检验是扫描过程中重要环节。
检验人员通过对档案原件与扫描影像的比较,对扫描影像的清晰、位置、格式、完整、次序等做出判断,提交改正或通过。
三级校对管理软件避免了日后的错误。
质量管理是本软件生产平台的最大亮点。
扫描时员工必须按照正确方法进行扫描:
张数不对,无法通过;
质量不好无法通过。
否则系统提示无法提交下一步工序。
在质量检验中,必须通过严格的三级质量检验,否则打回重扫,再校对,最终通过总检,方可进入数据库。
质量管理软件如下图所示:
3.7.2.图像精细化处理
l纠斜后的图像四角成90度,图像内容居中;
l调整明暗度或对比度,去除版面污点,达到所有版芯外的污迹都去除掉;
l去图像黑边,裁边等;
尽可能达到好的色彩、对比度还原等要求;
l对大幅面档案进行分区扫描形成的多幅图像后进行拼接处理,合并为一个完整的图像;
l对案卷中遗漏编目的页面进行合页处理,确保扫描好的影像页数与原案卷页数;
l保证扫描图像字迹清晰、颜色恰当,正文文字可以看清楚。
l将通过精细加工的原始扫描图像压缩成300DPI的JPG格式,存储成单页JPG,并将封装好的文件存储到相应文件夹中。
填写档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,若原档案有残缺、污损等影响阅读的情况,若扫描处理无法解决时,需要在相应版面处添加说明,同时需在readme.txt文件中记录说明,并及时与用户联系协商处理办法。
【图像处理前后情况示意图】
3.7.3.补扫
图像扫描整个加工过程需要通过三级校对环节,对个别被判定不合格的影像文件打回重扫,直至通过总检,合格备份。
3.8.图像版面分析和基础信息提取
3.8.1.工作内容
对图像处理环节完成的档案图像文件进行版面分析和信息提取工作,主要标注档案版面文字块、图像块、纹饰块和颜色信息等等版面信息,为后期版面识别和版面合成提供数据基础。
3.8.2.制作标准
分类
标准
版面画框
根据文字区域、插图区域和纹饰区域进行画框
字体标注
对于版面中的不同字体详细标注
字号标注
对于版面中的不同字号详细标注
图像属性标注
标注图像的精度、图像模式(黑白、彩色)
3.8.3.实现方法
运行方正标引程序,将档案图像文件根据需求依次进行版面分析,以达到能够让识别程序进行正确识别,且识别出来的文字,阅读顺序正确。
要求:
1、版面分析准确,栏目层次分明,文章主题明确,清楚文章的阅读顺序。
2、版面分析操作一定要规范,避免出现漏标(指整篇文章、一段文字或一行文字)、多标、错标、重框、压框(压图片、压表格、压字等)等问题。
3、标引内容:
从前往后标(正文不标引);
若遇到下转、上接的文章时,注意文章阅读顺序完整。
4、需要标引内容:
包括文件名、案卷号、顺序号、文号、责任者、题名、日期、页号、保管期限、页密级等。
3.8.4.输出数据
带有版式信息的中间文件,根据XX市档案局的要求输出AMF文件前置文件GNS文件。
3.9.全文识别和编改
3.9.1.工作内容
将档案图像版面分析后生成的过程文件直接导入识别软件进行全文识别,全文识别是个批量处理的工作,识别后文件对文字进行编改校对,生僻字进行著录和造字后导入方正自主研发的XML制作工具生成本项目要求的XML文件。
3.9.2.制作标准
档案XML文件
文字要求
文字准确,造字、特殊符号用“■”代替
表格要求
表格在XML文件中不体现
公式要求
公式在XML文件中不体现
段落要求
段落之间只能有上一段落的回车和下一段落的两个全角空格,不能有其他内容。
换行的回车需要去除
文章开始处要求
文章内容每个段落开始要求有两个全角空格,结束要求有回车
文字正确率要求
文章XML综合差错率不超过万分之一
3.9.3.实现方法
本环节根据全文内容进行自动文本识别处理,并依据质量规范对识别后的文本进行编改和校对处理,保证文字的准确性。
l全文识别
采用方正自主知识产权的识别核心,并结合其他的识别技术,采用复杂的集成投票判别算法,大幅度降低OCR的误判率,提高自动辨识效果,确保文字质量可控。
全文识别在版面分析的基础上,对于各个制定的文字区域进行自动识别。
在初次识别结果上,进行系统一级的优化处理,提炼出识别相似度较低、易错字、或无法识别的文字,进行加扰处理并组合后进入校对环节。
对于系统判定识别正确度文字,进行另外的组合进入检查环节。
l录入
全文识别软件对于无法识别的内容,提供与原图对照录入的功能,提高录入效率,并可以原图上标记识别困难的模糊字、无法输入的冷僻字(缺字)和认同字。
将每幅图像内所显示的文字,由人工利用方正新典码输入法输入在与图像文件同名的指定格式文档中。
l编改
在本项目中按照所要求的文字错误率标准,设置生产线并制定强化环节控制和增加校对批数,以保障全局的文字质量。
除中文之间的标点符号为全角,其它全部在英文状态下输入(原则是规定为分割符号的必须半角,其他的以原内容为准)。
编改中打不出来的字用‘■’代替,并要记录,记录要统一。
为有效地随时监控校对效果和校对质量,在校对系统中还内置了一套校对质量智能分析模型,可以自动地甄别基本的工作质量。
【示例:
采用校对质量智能分析,随时掌握校对过程、智能查错等】
对于质量要求更高的内容,可重新配置工艺,设立多层次的质量保证体系,包括采用多人不同方法同时处理、电脑校验、多人采取不同方法同时核对等手段杜绝全部错误。
校对方法包括:
语义智能机器校对、字形自动比对、人工易错字/词校对、OCR易错字/词校对、地名/人名/词语校对等。
为了保证作业在第一时间就符合质量要求,利用信息系统支持流水线作业的特点,对员工在文字校对作业环节进行严格的强化培训,使他们能够达到很高的准确率水平。
同时,方正还充分利用技术手段通过处理系统内部内置的程序进行质量控制,依据质量指标要求设置系统参数,在校对环节不达标时系统拒接回收提交的数据。
l导出XML文件
通过自主研发的AMF转XML工具,将全部的档案AMF文件批量转换成XML文件,如下图所示:
3.9.4.输出数据
包含有文章著录项的每份档案XML文件。
3.10.档案目录著录
3.10.1.数据格式选择
目录建库应选择通用的数据格式。
所选定的数据格式应能直接或间接通过XML文档进行数据交换。
3.10.2.标引著录
标引著录为了方便查阅与管理,打印制作档案目录及档案封面,对文字录入的准确性要求较高,但要录的文本域并不是完全统一的在某一页面上,一些文本域要在多个文件中选择,所以录入时需要相关学部专家进行指导,确保文本域录入的准确率。
对所需录入的文本进行标引、或对不同类别的档案录入特征制作相应的《文字录入说明》,供录入员和校对人员参考。
3.10.3.录入方式
由于文本类型不一,有印刷体、手写体、有表格内的也有表格外的文本信息,所以采用手工录入和OCR软件相结合的方式录入。
即手写体或不清晰的印刷体采用手工录入,较规整的印刷体采用OCR技术的录入方式。
3.10.4.校对方式
校对以软件校对和打印输出对比校对相结合的方式,即对手工录入和OCR自动录入的文本打印输出进行对比校对的一校、二校、抽查校对,确保索引信息错误率达到出版质量万分之一以下。
3.11.单层纯图像PDF文件生成
3.11.1.工作内容
将经过图像处理后的单页图像文件加工后制作生成单层纯图像PDF文件。
3.11.2.制作标准
PDF图像要求
纯图像PDF文件所使用彩色为300dpi
初始设置
PDF初始放大率设置为“适合页面”
3.11.3.实现方法
将图像处理完成并符合质量要求的图像文件整理分类后,通过PDF批量转换工具生成单层纯图像PDF文件。
采用PDF还原系统还原PDF版面数据】
3.11.4.输出数据
本环节加工完成后生成每张图像文件的单层纯图像PDF文件。
3.12.双层PDF文件生成
3.12.1.工作内容
将经过全文识别和编改后的档案图像文件加工后制作生成双层PDF文件。
3.12.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 档案局 档案 数字化 加工 项目