抽取
- 逻辑数据映射:描述了ETL系统中起点和终点之间的关系。(Logical Data Mapping)用来描述源系统的数据定义,目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或EXCEL的格式保存如下信息:目标表名,目标列名,目标表类型(事实表,维度或支架维度表), SCD类型,源数据库名,源表名,转换方法。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的。
- 源系统的分析
- 数据发现阶段
- 异常检测阶段
- 分析源系统:如果是基于关系型技术,一般通过获得系统的ER图来对所选的记录系统加深理解。ER图可以通过对数据库进行反向工程获得。许多数据评估工具可以很容易做到这点。
- ER图主要特性
- 通过ODBC连接不同的源(开放数据库连接)
- 主机数据源
- COBOL: 主机上的主要编程语言
- EBCDIC:大多数DWH在老的主机系统和基于UNIX和windows的系统都采用二进制位和字节存储。
- ASCII: UNIX和windows使用美国标准信息交换码(ASCII)字符集。与EBCDIC用不同的8位组合来表示 A-Z, a-z, 0-9, 标点符号和特殊符号。要在UNIX或者windows系统中使用来自主机系统的数据,首先必须从EBCDIC转化为ASCII。
- 处理主机数字类型数据:25,000.01和2,500,001 都存储为002500001.
- 使用PIC:PIC语句可以给同一个数据值不同的意思。
- 解压压缩的数字:在大多数主机系统,大多数数字数据是以COMP-3格式存储的,即使用半字节(四位字节)来存储数字数据。压缩后的数字不能简单的从EBCDIC转到ASCII,需要用COBOL...按照显示格式重新格式化主机数据。
- 使用重定义字段:为了不浪费空间,主机工程师设计了redefines,这种方法允许相互分割的数据元素占用相互的物理空间。
- 多重OCCUR子句:主机COBOL程序使用OCCURS子句来处理重复分组。 OCCURS 5 times
- 管理多主机记录类型文件:在同一文件中重新组织多个记录类型:节省空间
- 处理主机变化记录长度
- 平面文件(广泛用于任何数据集结应用系统)
- 传输源数据,往往通过FTP到数据集结区
- 用于集结表
- 块加载准备
- 平面文件类型
- 固定长度的
- 分隔符分隔的,一般用逗号,以.csv作为扩展名
- XML数据源(多用于传递数据):XML包含2个重要元素:元数据和数据本身
- 元数据:标签
- Web日志数据源:log
- ERP系统数据源
- 抽取变化数据:捕获源数据中的数据内容的变化。
原文地址:https://www.jb51.cc/xml/298134.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。