微信小程序> 数据仓库技术(DataWarehouseTechnologien)第二章节数据仓库架构(1)

数据仓库技术(DataWarehouseTechnologien)第二章节数据仓库架构(1)

浏览量:503 时间: 来源:Shang1031

0. 概览

  • 要求
  • 参考架构
  • Data Warehousing 阶段
  • 组件

1. Data Warehousing的要求

  • 数据源和分析系统之间的独立性(关于可用性、负载、持久性/连续的改变)
  • 持续提供集成的和派生的数据(持久)
  • 被提供数据的可重用性
  • 原则上进行任何评估的可能性
  • 支持独立视图(比如,关于时间跨度、域和结构)
  • 可拓展性(比如,集成一个新的源)
  • 过程自动化
  • 数据结构、访问权限和流程的唯一性
  • 目标方向对准:数据分析

2. Codd 12 OLAP 准则

  1. 多维度概念视图
  2. 透明
  3. 可访问
  4. 性能
  5. 可伸缩性
  6. 一般的维度
  7. 动态处理拥有稀少的多维度结构
  8. 多用户模式/运行
  9. 不受限制的操作
  10. 直观的用户界面
  11. 灵活报告
  12. 任意大量维度和聚合层次/级别

3. FASMI (Fast Analysis on Shared Multimensional Information)

  • 短响应时间(平均低于5秒)
  • 简单和灵活的评估可能
  • 拥有不同权限的异构用户
  • 多维度是重要的标准
  • 查询必要维度的数量和所属属性的值域

4. 参考架构

参考架构(组件交互)

 

5. Data Warehousing 阶段

  1. 通过监视器监视源的改变;
  2. 借助提取器复制相关数据至临时数据清洗区域
  3. 数据清洗区转换数据(清洗,集成);
  4. 复制数据至集成的基础数据库作为不同分析的基础 / 根据 / 前提;
  5. 填充数据立方体(用于分析目的的数据库);
  6. 分析:操纵数据仓库中的数据;

重点:基础数据库数据立方体 表示数据仓库

6. 数据仓库 Manager

  • 数据仓库系统的核心组件
  • 启动、控制和监控单个过程(过程控制);
  • 数据采集过程的启动:
    • 有规律的时间间隔(每个午夜,周末等):开始从源中提取数据并传送到数据清洗区域;
    • 当源改变的时候:启动相应的提取组件
    • 根据管理员明确的需求;
    • Push vs. Pull 策略;
    • 现实性/现实意义是分析任务的要求;
  • 触发加载过程之后:
    • 监控更多的步骤(清洗,集成等);
    • 协调处理顺序;
  • 故障情况
    • 错误文档;
    • 重启机制;
  • 访问来自元数据库的元数据
    • 过程控制;
    • 组件参数;

7. 数据源

  • 为数据仓库提供数据
    • 不直接属于数据仓库;
    • 可以是内部的(企业)或者是外部的(比如:国立机构/设施);
    • 关于结构、内容和接口/界面的异构(数据库、文件资料);
    • 具有特别重要意义的数据的来源与质量的选择;
  • 选择因素
    • 数据仓库的目的;
    • 源数据的质量;
    • 可用性(合法的、社会/公益的、技术的);
    • 购买/获得数据的价格(特别是外部来源);
  • 分类
    • 来源:内部、外部
    • 时间:最新、历史
    • 使用级别:原始数据、元数据
    • 内容:数字、字符串、图像、参考、文档
    • 描绘/表达方式:数字的、文字数字的、BLOB(二进制大对象)
    • 语言和字符集
    • 机密程度
  • 质量要求
    • 一致性(一致性(逻辑))
    • 正确性(与现实协调一致)
    • 完整性(比如:缺少缺失值或者确实属性)
    • 可靠性(比如:信任数据来源)
    • 精确性(比如:小数位数)
    • 粒度(比如:精确到天的数据)
    • 反映当下的(上一次更改是什么时候发生的 vs. 数据更改的发生)
    • 重要性(数据有多重要)
    • 可依赖性(来源的可追溯性,提供者的可信度)
    • 可理解性(内容上的以及对于每个目标组的技术/结构)
    • 可用性(合适的格式,合乎目标的/有效的)
    • 统一性(数据格式)
    • 唯一性(可解释的)
    • 密匙完整性(密匙和参考)

版权声明

即速应用倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至197452366@qq.com ,我们将及时处理。本站文章仅作分享交流用途,作者观点不等同于即速应用观点。用户与作者的任何交易与本站无关,请知悉。

产品经理

手机 : 13312967497

擅长 : 小程序流量变现

扫码领取礼包

热门模板

  • 头条
  • 搜狐
  • 微博
  • 百家
  • 一点资讯
  • 知乎