微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

关于ETL过程2

集结区

  1. 加载到数据仓库之前集结数据,主要为了:
    • 可恢复:数据一抽取完马上进行集结。这些集结表(数据库或者文件系统)可作为恢复点,一旦转换或加载发生错误,利用这些表,无需再次访问源系统。
    • 备份
    • 审计:便于ETL流程中不同阶段直接对比。
  2. 集结区:
    • 持久集结区:为维护历史信息而使用。
    • 临时集结区:集结区的数据则在每次加载过程后被删除
  3. 使用平面文件存储集结数据:如果使用ETL工具,可以在文件系统中使用简单文件来存储集结数据。集结数据像数据库表那样按照行列存储在文件系统中的时候,称之为平面文件
  4. XML数据集转移数据(平面文件/数据库集结区与源数据之间):XML数据集在ETL系统中通常不用于永久存储集结区数据,它们更适用于作为ETL系统的输入输出的标准格式。XML是目前在不兼容系统中转移数据的最有效的中间层。
  5. 关于XML
    • DTD: 使用XML需要双方通过交换特定的类型定义文档来识别可能的标签。DTD为双方交换XML建立了元数据理解的基础。不包含字段长度。
    • XML Schemas:DTD的改进版。包含大量的面向数据库信息,包含数据类型和XML元素之间的关联关系。
    • XSLT:收到XML之后,通过另一个规范XSLT(可扩展的风格样式语言转换)来展示内容。通过XSLT可将XML转换成HTML显示在屏幕上。
  6. 关系表存储集结数据:集结区数据可以存储在关系型DBMS中,尤其是没有使用专门的ETL工具。
  7. 维度数据类型:维度数据结构是ETL过程的最终目标,位于前台后台之间。维度模型是把表传递给最终用户环境之前的最后一步物理集结步骤。
  8. 事实表:维度模型是围绕着度量过程建立的,度量基本上是数值型的。一次度量构建一条单独的事实表记录,相对的,一条事实表的记录对应一条特定的度量事件。度量将存储在事实表记录中,同时还要将度量的上下文信息存储在同一条记录中。通过创建一系列的维表将这些上下文的属性规范化的存储在列事实表中,事实表中存储的是维度表的主键。
  9. 维表:每个维表中的主代理键应该与事实表中的相应的外键相匹配。
  10. 代理键映射表:用来建立各个源系统的自然键到主数据仓库代理键之间的映射。由于同一个维度可以有不同的源,因此映射表中腰围每个源的自然键创建单独的列。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。