数据抽取过程课案.docx
- 文档编号:14454135
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:9
- 大小:341.01KB
数据抽取过程课案.docx
《数据抽取过程课案.docx》由会员分享,可在线阅读,更多相关《数据抽取过程课案.docx(9页珍藏版)》请在冰点文库上搜索。
数据抽取过程课案
文件状态:
[√]草稿
[]正在修改
[]正式发布
文件标识
当前版本
V1.0
完成日期
2016年6月20日
机密文件严禁外传
拟制人
审批人
宿迁市公安局
数据资源整理说明
深圳市神盾信息技术有限公司
二〇一九年一月
修订历史记录
A-增加M-修订D-删除
版本号
日期
变更类型
修改人
摘要
备注
V1.0
2016-06-20
A
李伟明
目录
目录
目录3
目录3
1引言4
1.1编写目的4
1.2抽取背景4
2ETL抽取数据过程4
2.1省厅下发数据4
2.1.1入所人员手机APP数据采集4
1引言
1.1编写目的
◆方便项目组相关人员进行数据抽取了解。
◆详细记录工作流程以便日后查看。
本文档提供以下人员阅览:
◆公司宿迁市应急指挥中心系统建设项目的实施人员、研发人员、维护人员。
◆宿迁市公安局应急指挥中心系统建设项目项目相关人员。
1.2抽取背景
ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。
为了实现这些功能,ETL工具会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。
2ETL抽取数据过程
2.1省厅下发数据
2.1.1入所人员手机APP数据采集
2.1.1.1ftp信息
建立ftp数据平台用于存放下发数据,具体信息如下:
ftp地址
账户/密码
文件夹
ftp:
//10.38.16.9
sq_ftp/123456
未定
2.1.1.2存储中间库
将下发数据先抽取入中间库,中间库具体信息如下:
序号
中间库地址
服务名
账户/密码
1
192.168.1.114
Orcl
hewin/sundun
2.1.1.3抽取需求
获取数据后,打开xml文件进行分析,查看数据字段类型,如时间,如源数据时间字段为varchar类型,而目标表为date字段则会出现数据无法插入的情况,可将date字段改为varchar字段进行抽取。
2.1.1.4抽取过程
建立数据库与kettle工具的连接,新建作业,先从ftp下载数据到本地,再将ftp多余数据删除,通过解压缩文件工具将数据解压进制定文件夹,如下图:
然后新建转换,通过kettle菜单下的XML输入文件解析解压后的xml源数据文件,同时通过\{.*\}\语句读取第一层文件夹内分属不同文件夹但属性相同的xml文件,如下图:
解析完XML文件后,拖入获取字段及表输出两个工具条,在表输出中连接中间库:
然后确定中间库里的目标表:
通过字段选择获取xml内解析出来的字段并且建立列映射:
至此一个转换基本完成,根据主题名_单位_数据名的命名规范进行转换命名。
例如:
RY_GA_WEIBO_INFO;转换完成后为方便多个转换抽取数据将再新建一个作业将转换与新建的作业相连接,通过运行一个作业实现多个转换运行。
最后连接最初新建的转换完成整个抽取;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 抽取 过程