数据仓库与商业智能宝典-成功设计.部署和维护DW/BI系统-(第2版)

1星价 ¥44.8 (3.8折)

2星价￥43.7 定价￥118.0

作者：拉尔夫.金博尔

出版社：清华大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 数据库 > 数据仓库与数据挖掘

温馨提示：5折以下图书主要为出版社尾货，大部分为全新（有塑封/无塑封），个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>

买过本商品的人还买了

暂无评论

图文详情

ISBN：9787302475798
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：32开
页数：708
出版时间：2017-08-01
条形码：9787302475798 ; 978-7-302-47579-8

本书特色

作为数据仓库和商业智能(DW/BI)行业中*有影响力的领军人物，Ralph Kimball、Margy Ross得到了世界范围内的认可和尊重，他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在，在《数据仓库与商业智能宝典(第2版)　成功设计、部署和维护DW/BI系统》中已经更新了65篇Design Tip和白皮书，从而汇集了DW/BI技术创新前沿的著作。从项目规划和需求收集，到维度建模、ETL和BI应用，本书涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护 DW/BI系统的重要建议。主要内容： ◆ 启动DW/BI项目和收集需求的注意事项 ◆ 集成式企业数据仓库的**要素，其中包括总线架构和矩阵 ◆ 事实表的粒度性和三种基本类型 ◆ 渐变维度技术 ◆ 星型模式、外支架和桥接表 ◆ 维度建模高级模式 ◆ 提取、转换和加载(ETL)子系统与数据质量 ◆ BI应用*实践 ◆ 大数据注意事项无论你正以何种身份参与数据仓库或商业智能项目，这本可轻易参考和*近更新的宝典可谓无价之宝。

内容简介

作为数据仓库和商业智能(DW/BI)行业中*有影响力的领军人物，Ralph Kimball、Margy Ross得到了世界范围内的认可和尊重，他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在，在《数据仓库与商业智能宝典(第2版)　成功设计、部署和维护DW/BI系统》中已经更新了65篇DesignTip和白皮书，从而汇集了DW/BI技术创新前沿的著作。　　从项目规划和需求收集，到维度建模、ETL和BI应用，本书涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。主要内容：启动DW/BI项目和收集需求的注意事项集成式企业数据仓库的**要素，其中包括总线架构和矩阵事实表的粒度性和三种基本类型渐变维度技术星型模式、外支架和桥接表维度建模高级模式提取、转换和加载(ETL)子系统与数据质量 BI应用*佳实践大数据注意事项　　无论你正以何种身份参与数据仓库或商业智能项目，这本可轻易参考和*近更新的宝典可谓无价之宝。

第1章读本概览 1 1.1 抑制住立即开始编码的冲动 1 1.2 设置边界 3 1.3 数据争夺 5 1.4 流言终结者 7 1.5 划分数据世界 9 1.6 集成式企业数据仓库的必要步骤 10 1.6.1 集成式EDW会交付什么 11 1.6.2 集成的终极试金石 11 1.6.3 组织挑战 12 1.6.4 一致化维度和事实 12 1.6.5 使用总线矩阵与管理层交流 12 1.6.6 管理集成式EDW的主干 13 1.6.7 维度管理器 14 1.6.8 事实提供者 15 1.6.9 配置商业智能(BI)工具 16 1.6.10 连带责任 17 1.7 钻取以寻求原因 17 1.8 渐变维度 19 1.8.1 渐变维度的三种原生类型 20 1.8.2 高级渐变维度 22 1.9 通过维度评价BI工具 22 1.10 事实表 24 1.10.1 忠实于粒度 24 1.10.2 从*低的可能粒度进行构建 25 1.10.3 三类事实表 25 1.11 开发利用事实表 26 1.11.1 前端：聚合导航 26 1.11.2 前端：钻取不同的粒度 26 1.11.3 前端：将约束暴露给不同的业务过程 26 1.11.4 后端：事实表代理键 27 第2章深入研究之前 29 2.1 Ralph Kimball和施乐帕克研究中心(Xerox PARC) 29 2.2 数据库市场分化 31 2.3 提出超市概念(Kimball经典) 33 2.3.1 危机规划 33 2.3.2 具有架构的数据集市 34 2.3.3 一致化维度的重要性 34 2.3.4 设计一致化维度 35 2.3.5 做出承诺 36 2.3.6 允许的一致化维度变体 36 2.3.7 建立标准事实定义 36 2.3.8 粒度的重要性 37 2.3.9 更高级别的数据集市 38 2.3.10 解决烟囱问题 38 2.3.11 不需要一致化维度的情形 38 2.3.12 清晰视角 39 2.4 数据仓库的全新需求 39 2.5 应对全新需求 42 2.5.1 数据集市和维度建模 42 2.5.2 将数据集市插入数据仓库总线架构中 44 2.6 挑起事端 46 2.7 设计约束和不可避免的现实 49 2.7.1 设计约束 49 2.7.2 不可避免的现实 50 2.7.3 摆脱困境 51 2.8 两个强有力的观点 52 2.8.1 分离系统 52 2.8.2 对称的星型结构和多维数据集 53 2.8.3 巨大的回报 54 2.8.4 我们已经取得了什么成果 54 2.9 数据仓库就餐体验(Kimball经典) 54 2.9.1 厨房 55 2.9.2 就餐区 56 2.10 用于更艰难问题的更简单方法 57 2.10.1 增量集成 57 2.10.2 递增的数据质量 58 2.11 扩展数据仓库的边界 58 第3章项目/程序规划 61 3.1 专家边界 61 3.2 工程师的观点 63 3.2.1 数据仓库使命 64 3.2.2 设计驱动 65 3.2.3 设计约束 65 3.2.4 工程师的回应 66 3.3 当心异议消除者 66 3.4 中央团队要做些什么 69 3.4.1 定义和发布共享维度 70 3.4.2 提供跨部门的应用程序 71 3.4.3 定义一致化数据仓库安全性架构 72 3.5 避免隔离的DW和BI团队 72 3.6 BI和数据仓库专家可用的、更好的业务技能 73 3.6.1 建立对业务的理解 73 3.6.2 建立人际交往能力 73 3.6.3 掌握公开演讲技巧 74 3.6.4 掌握书面沟通技巧 74 3.6.5 实践决定一切 75 3.7 有风险的项目资源就是有风险的业务 75 3.8 无法实现分析 76 3.9 包含DW/BI范围蔓延并且避免范围冒用 77 3.10 IT过程对于DW/BI项目是否有益 79 3.10.1 规范 79 3.10.2 命名规范 79 3.10.3 教条主义 80 3.11 有效主办者的行为 80 3.11.1 为成功做准备 81 3.11.2 抵制阻力*小的路径 81 3.11.3 团结周边可用资源 82 3.11.4 耐心是一种美德 82 3.11.5 保持对目标的专注 83 3.12 从终端用户开始计算的总体拥有成本(Kimball经典) 83 3.12.1 不好的决策也是成本 83 3.12.2 仔细查看这些成本 84 3.13 简要概括Kimball生命周期 87 3.13.1 程序/项目规划和管理 88 3.13.2 业务需求 88 3.13.3 技术轨迹 88 3.13.4 数据轨迹 88 3.13.5 商业智能轨迹 89 3.13.6 部署、维护和发展 89 3.14 挺身而出 89 3.15 持相反意见的架构师 90 3.16 在应用*佳实践时慎重思考 93 3.16.1 采取一种企业方法 93 3.16.2 拥抱商业智能 93 3.16.3 设计维度模式 93 3.16.4 将一致化维度用于集成 94 3.16.5 仔细规划ETL架构 94 3.17 低风险企业数据仓库的八个准则 95 3.17.1 做正确的事情 95 3.17.2 赋予业务用户控制权 96 3.17.3 渐进式处理 96 3.17.4 从轻量级、专注的治理开始 96 3.17.5 构建一个简单、通用的平台 97 3.17.6 使用一致化维度来集成 97 3.17.7 每次都用一些过滤来管理质量 97 3.17.8 自始至终使用代理键 97 第4章需求定义 99 4.1 将Alan Alda的访问技巧用于揭示业务需求(Kimball经典) 99 4.1.1 保持好奇心，但不要自作聪明 100 4.1.2 要口语式对话 100 4.1.3 倾听并且期望被改变 101 4.2 业务需求收集的更多注意事项 102 4.3 平衡需求与现实(Kimball经典) 104 4.4 在收集业务需求时克服障碍 105 4.5 令人吃惊的数据剖析价值 106 4.6 专注于业务过程，而非业务部门 108 4.7 识别业务过程 109 4.8 业务过程全面揭秘 110 4.9 战略业务举措和业务过程之间的关系 111 4.10 自下而上属于用词不当 112 4.10.1 专注于企业，而非部门 112 4.10.2 起草企业数据仓库总线矩阵 112 4.10.3 进行优先级排序以便得到一份有序的结论 113 4.10.4 绘制企业路线图 115 4.11 (超越数据建模的)维度化思维 115 4.12 使用维度模型验证业务需求 116 第5章数据架构 119 5.1 ER建模是否对DSS有害（Kimball经典) 119 5.2 一个维度建模宣言(Kimball经典) 122 5.2.1 什么是3NF标准化建模 122 5.2.2 什么是DM 124 5.2.3 DM与3NF的对比 125 5.2.4 DM的优势 126 5.2.5 对DM的误解 127 5.2.6 捍卫DM 128 5.3 没有百分百的保证 128 5.3.1 3NF建模是否会处理业务规则吗 129 5.3.2 早期维度建模 130 5.4 分而治之 131 5.4.1 是否需要通用标签 132 5.4.2 业务过程主题领域并不是部门化的 132 5.4.3 一致化维度和事实 132 5.4.4 数据仓库总线架构 133 5.4.5 是否仅仅为了高度分布式系统 133 5.4.6 净收益 134 5.5 矩阵(Kimball经典) 134 5.5.1 邀请主题领域小组参加一致化会议 136 5.5.2 与老板进行沟通 136 5.5.3 二级主题领域 136 5.6 再次探讨矩阵(Kimball经典) 137 5.6.1 用于引用数据的矩阵列 137 5.6.2 数据管理 137 5.6.3 以过程为中心的行 138 5.6.4 关联列和行 138 5.6.5 常见的矩阵不幸事件 139 5.6.6 矩阵扩展 139 5.7 向下钻取到详细的总线矩阵中 140 5.8 关于敏捷方法论 142 5.9 敏捷企业数据仓库是不是一个矛盾混合体 143 5.10 采用敏捷方法？先要从总线矩阵开始 144 5.11 作为敏捷数据仓库基础的一致化维度 145 5.12 为现实中的人而集成 146 5.12.1 定义集成 146 5.12.2 集成标签 147 5.12.3 集成测量 147 5.12.4 维度管理者的职责 148 5.12.5 事实提供者的职责 148 5.13 为企业维度构建即时可用的资源 149 5.14 数据管理基础知识：质量和一致性的**步 150 5.14.1 为何管理是必要的 150 5.14.2 管理职责 151 5.14.3 管理的正确举措 152 5.14.4 沟通工具和技术 152 5.14.5 如何开始 152 5.15 要不要集中化 153 5.15.1 闪光的未必都是金子 153 5.15.2 不要畏惧伟大 154 5.15.3 结果好意味着一切都好 155 5.16 观点差异(Kimball经典) 155 5.16.1 共同之处 155 5.16.2 Kimball总线架构 156 5.16.3 企业信息工厂 157 5.16.4 根本性差异 158 5.16.5 混合方法怎么样 159 5.16.6 成功标准 159 5.17 庸人自扰 160 5.18 不要用一个标准化EDW支持商业智能 160 5.19 使用维度展示区域补充3NF EDW 162 第6章维度建模基础 165 6.1 事实表和维度表 165 6.1.1 测量和上下文 165 6.1.2 维度键 166 6.1.3 把两个建模方法关联起来 167 6.1.4 声明粒度 167 6.1.5 可累加事实 167 6.1.6 退化维度 168 6.2 向下、向上和横向钻取 168 6.2.1 向下钻取 168 6.2.2 向上钻取 170 6.2.3 横向钻取 170 6.3 数据仓库的灵魂之**部分：向下钻取 171 6.4 数据仓库的灵魂之第二部分：横向钻取 173 6.4.1 实现横向钻取 174 6.4.2 令人惊讶的神奇之处 175 6.5 数据仓库的灵魂之第三部分：时间处理 175 6.5.1 时间的有效性 176 6.5.2 正确关联 176 6.5.3 自然粒度 177 6.5.4 是否兑现了承诺 178 6.6 优雅修改已有的事实和维度表 178 6.7 Kimball关于维度建模的十项必要规则(Kimball经典) 179 6.8 不该做的事情 181 6.9 危险的先入为主的想法 183 6.10 虚言和事实 185 6.10.1 并非所有的维度模型都是同等创建的 185 6.10.2 专注于测量过程，而非部门报告 185 6.10.3 从原子详情开始，而非汇总数据 186 6.10.4 目标是集成，而非标准化 187 第7章维度建模任务和职责 189 7.1 让用户安然入眠 189 7.2 用于设计维度模型的实践步骤 194 7.2.1 参与其中 195 7.2.2 深究细节 195 7.2.3 审核结果 196 7.3 为维度建模团队配置人员 197 7.4 让业务代表参与到维度建模中 198 7.5 管理大型维度设计团队 199 7.6 使用设计章程让维度建模活动处于正轨 200 7.7 命名博弈 201 7.7.1 步骤1：准备 201 7.7.2 步骤2：创建一个初始名称集 202 7.7.3 步骤3：建立共识 202 7.8 名称的意义 202 7.9 维度设计何时算结束 204 7.10 设计评审注意事项(Kimball经典) 206 7.11 大把的缺点 207 7.11.1 粒度是什么 207 7.11.2 是否存在混合粒度或文本事实 208 7.11.3 是否有维度描述符和解码 208 7.11.4 层次结构如何处理 208 7.11.5 是否采用显式日期维度 209 7.11.6 是否将控制编号作为退化维度 209 7.11.7 是否使用代理键 209 7.11.8 是否采用渐变维度策略 210 7.11.9 是否很好地理解了业务需求 210 7.12 对维度数据仓库进行评分 210 7.12.1 架构标准 210 7.12.2 管理标准 211 7.12.3 表述标准 212 7.12.4 是否具有维度化思想 214 第8章事实表核心概念 215 8.1 声明粒度 215 8.1.1 业务术语中的表达 216 8.1.2 巨大的影响 216 8.1.3 保持事实忠实于粒度 217 8.2 在维度建模中保持粒度 218 8.3 警告：汇总数据可能会有害健康 219 8.4 再微小的细节都是需要的 220 8.4.1 累积原子数据 220 8.4.2 跨过程合并 220 8.4.3 性能越高，维度性越低 220 8.4.4 合并事实表示例 221 8.4.5 累计式快照示例 221 8.4.6 细节至上 222 8.5 基础粒度 223 8.5.1 基础粒度 223 8.5.2 我们要如何使用每一个事实表类型 225 8.6 使用累计式快照对管道进行建模 225 8.7 合并定期和累计式快照 228 8.8 互补的事实表类型 228 8.8.1 事务事实表 229 8.8.2 定期快照事实表 229 8.8.3 累计式快照事实表 230 8.9 对时间段进行建模 230 8.10 在现在和过去对未来进行滚动预测 232 8.11 时间段累计式快照事实表 235 8.12 是维度还是事实，抑或两者都是 236 8.13 非事实型事实表 237 8.14 非事实型事实表听起来像不像没有帆的帆船 239 8.15 哪些事情还没发生 240 8.15.1 覆盖范围表 241 8.15.2 用于未发生行为的明确记录 241 8.15.3 用NOT EXISTS搜索不存在的事实 241 8.15.4 使用NOT EXISTS找到还不存在的属性 242 8.16 追求简化的非事实型事实表 243 8.17 管理父数据 244 8.17.1 有争议的分配机制 246 8.17.2 艰难的分配环境 246 8.18 在建模标题/行项目事务时要避免的模式 247 8.18.1 糟糕的主意#1：将标题保存成维度 247 8.18.2 糟糕的主意#2：行项目不继承标题维度性 247 8.18.3 标题/行项目事务的推荐结构 248 8.19 事实表代理键 249 8.20 关于事实表代理键的读者建议 249 8.21 再谈退化维度 251 8.22 为极少访问的退化项创建一个引用维度 252 8.23 规范事实表 253 8.24 将文本保存在事实表外 254 8.25 处理维度模型中的空值 255 8.25.1 作为事实表外键的空值 255 8.25.2 作为事实的空值 256 8.25.3 作为维度属性的空值 256 8.26 将数据同时建模为事实和维度属性 256 8.27 事实表何时可被用作维度表 257 8.28 稀疏事实和具有较短生命周期的事实 258 8.29 用事实维度让事实表成为中心 260 8.30 用于复杂工作流的累计式快照(Kimball经典) 261 第9章维度表核心概念 263 9.1 代理键(Kimball经典) 263 9.2 保持键的简单性 266 9.3 持久的“超自然”键 267 9.4 是时候谈谈时间了 269 9.4.1 基础时间问题 269 9.4.2 中间时间问题 270 9.5 用于时间维度的代理键 271 9.6 对时间维度表的*新思考 272 9.7 将智能日期键用于分区事实表 274 9.8 更新日期维度 275 9.9 处理所有的日期 275 9.10 为空值选择默认值(Kimball经典) 277 9.11 数据仓库角色模型 278 9.12 神秘维度 281 9.12.1 找到明显的与维度有关的字段 281 9.12.2 找出与事实有关的字段 282 9.12.3 决定对其余字段的处理 282 9.12.4 将神秘字段转换成神秘维度 283 9.13 整理杂项维度 284 9.14 显示维度之间的相关性 284 9.15 因果性(非因果性)维度(Kimball经典) 285 9.16 抵制抽象的通用维度 288 9.17 热插拔维度 289 9.18 精确统计维度增补项的数量 290 9.19 使用类型2 SCD的完美分区历史 291 9.20 许多交替的现实 292 9.20.1 可预测的多种现实 293 9.20.2 不可预测的多种现实 294 9.21 庞然大物般的维度 295 9.22 当渐变维度加速时 297 9.22.1 渐变维度中的日期戳 297 9.22.2 并非缓慢变化的SCD 297 9.23 维度何时会变得危险 298 9.24 渐变维度并非总是像类型1、类型2和类型3那样简单 (Kimball经典) 299 9.24.1 具有当前重写的微型维度 300 9.24.2 具有当前重写的类型2 300 9.24.3 在事实表中具有持久键的类型2 301 9.24.4 类型3属性系列 302 9.24.5 在能力与易用性之间取得平衡 303 9.25 渐变维度类型0、类型4、类型5、类型6和类型7 (Kimball经典) 303 9.25.1 类型0：保留原始值 303 9.25.2 类型4：添加微型维度 303 9.25.3 类型5：添加微型维度和类型1外支架 304 9.25.4 类型6：将类型1属性添加到类型2维度 304 9.25.5 类型7：双重类型1和类型2维度 305 9.26 维度行变更原因属性 306 第10章更多的维度模式和注意事项 309 10.1 星型、外支架和桥接 309 10.2 三种有意思的星型模式 311 10.2.1 经典的星型模式 312 10.2.2 大型顾客维度 312 10.2.3 金融产品维度 313 10.2.4 多企业日历维度 314 10.2.5 允许的星型模式 314 10.3 为维度建模提供帮助 314 10.4 管理桥接表 317 10.4.1 使用代理键 318 10.4.2 使用双时间戳 318 10.4.3 更新桥接表 319 10.5 关键字维度 320 10.5.1 设计关键字维度 321 10.5.2 AND/OR的两难局面 322 10.5.3 搜索子字符串 322 10.5.4 高性能子字符串索引 323 10.6 可能的桥接(表)弯路 323 10.7 多值维度的可选项 325 10.8 将微型维度添加到桥接表 327 10.9 维护维度层次结构 328 10.9.1 从设计开始入手 328 10.9.2 加载标准化数据 330 10.9.3 维护真正的层次结构 331 10.9.4 应对脏数据源 331 10.9.5 让它执行起来 332 10.10 为层次结构提供帮助 (Kimball经典) 332 10.11 用于更好的员工维度建模的五个选项 335 10.11.1 选项1：使用代理键的桥接表 335 10.11.2 选项2：具有单独汇报对象维度的桥接表 336 10.11.3 选项3：具有自然键的桥接表 337 10.11.4 选项4：强制实现固定深度层次结构的技术 338 10.11.5 选项5：路径字符串属性 339 10.11.6 推荐 339 10.12 避免可替换的组织层次结构 340 10.13 可替换的层次结构 341 10.14 维度修饰 342 10.15 对行为标记进行争论 343 10.16 捕获顾客满意度的三种方式 345 10.16.1 标准的固定列表 345 10.16.2 同步的维度属性和事实 346 10.16.3 不可预测的紊乱列表 347 10.17 用于实时顾客分析的极端状态追踪 348 10.18 全局化思考，本地化行动 351 10.18.1 同步多个时区 351 10.18.2 支持多国日历 352 10.18.3 以多种货币单位集中收益 353 10.18.4 处理欧洲问题(来自 1998年的观点) 354 10.19 没有边界的数据仓库 354 10.20 让数据仓库在空间上可用 358 10.20.1 调研GIS供应商 359 10.20.2 进入训练营 359 10.20.3 自动地址标准化 360 10.20.4 标准数据库上的地理位置查询 361 10.20.5 恰好合适 361 10.21 跨国维度化数据仓库注意事项 362 10.22 行业标准数据模型的不足之处 363 10.23 一个保险行业数据仓库的案例研究 364 10.24 遍历数据库 368 10.24.1 排查设计 368 10.24.2 添加维度 369 10.24.3 图片和地图 370 10.25 人力资源维度模型 (Kimball经典) 371 10.26 维度化管理待办事项 373 10.27 不要过于急切 375 10.27.1 找出盈利能力的组成部分 375 10.27.2 市场营销和财务部门需要提供帮助 376 10.27.3 成本分配：盈利能力的核心挑战 376 10.27.4 如果时间紧迫 377 10.28 预算链 377 10.28.1 预算链事实表的粒度 379 10.28.2 预算链维度和事实 379 10.28.3 跨预算链的应用程序 380 10.29 启用合规性的数据仓库 380 10.30 记录顾客的点击操作 382 10.30.1 点击流维度模型的目标 382 10.30.2 点击流数据源 383 10.30.3 点击流数据的基础粒度 384 10.30.4 识别点击流维度和事实 384 10.30.5 分析点击流事件 385 10.31 点击流的特殊维度 386 10.31.1 访客维度 386 10.31.2 页面对象维度 387 10.31.3 会话类型 387 10.31.4 专注于页面对象和会话维度 388 10.32 用于文本文档搜索的事实表 389 10.32.1 相似性指标 389 10.32.2 用于相似性测量的事实表 390 10.32.3 强大的应用程序 391 10.33 让市场购物篮分析成为可能 391 第11章后台ETL和数据质量 395 11.1 围绕ETL需求 (Kimball经典) 395 11.1.1 业务需求 396 11.1.2 合规性 396 11.1.3 经过数据剖析的数据质量 396 11.1.4 安全性 397 11.1.5 数据集成以及360°画像 397 11.1.6 数据延迟 397 11.1.7 存档和派生关系 398 11.1.8 BI用户交付界面 398 11.1.9 可用技能 398 11.1.10 遗留许可 399 11.2 ETL的34个子系统 (Kimball经典) 399 11.2.1 提取：将数据放入数据仓库 399 11.2.2 数据清洗和一致化 400 11.2.3 交付：准备呈现 400 11.2.4 管理ETL环境 401 11.3 用于ETL架构的六个关键决策 402 11.3.1 是否应该使用ETL工具 402 11.3.2 应该在何处以及如何进行数据集成 403 11.3.3 应该选择哪种变更数据捕获机制 403 11.3.4 何时应该暂存数据 404 11.3.5 应该在何处纠正数据 404 11.3.6 必须以多快的速度通过 DW/BI系统使用源数据 405 11.4 要避免的三种ETL妥协 405 11.4.1 妥协1：忽视渐变维度需求 406 11.4.2 妥协2：未能接受元数据策略 406 11.4.3 妥协3：未交付有意义的范围 407 11.4.4 公开且诚实地做出妥协 407 11.5 在提取时工作 407 11.5.1 对跨多个时区的事件建模 408 11.5.2 冗长的日历维度 408 11.5.3 保留跨多种货币的定金 408 11.5.4 产品管道测量 408 11.5.5 损益的物理完整性 409 11.5.6 异质性产品 409 11.5.7 通用聚合 409 11.5.8 通用维度建模 409 11.6 数据暂存是关系型的吗 410 11.6.1 维度处理 410 11.6.2 确定已经变更的内容 411 11.6.3 从不同的源合并 411 11.6.4 数据清洗 411 11.6.5 处理名称和地址 412 11.6.6 验证一对一和一对多关系 412 11.6.7 事实处理 412 11.6.8 聚合处理 412 11.6.9 基线：数据暂存是关系型的吗 413 11.7 暂存区和ETL工具 413 11.8 是否应该使用ETL工具 414 11.8.1 ETL工具的优势 414 11.8.2 ETL工具的劣势 415 11.8.3 构建一个坚实的基础 415 11.9 ETL工具提供商的行动要求 416 11.10 文档化ETL系统 417 11.11 三思而行 418 11.11.1 目标：高层次ETL 规划 418 11.11.2 输入和数据流 418 11.11.3 转换注释 419 11.11.4 在开工之前完成规划 420 11.12 为传入数据做好准备 421 11.12.1 典型的数据集成过程 421 11.12.2 架构 422 11.12.3 设置过程 422 11.12.4 异常处理 423 11.12.5 靠不住的简单性 423 11.13 构建变更数据捕获系统 423 11.14 破坏性的ETL变更 424 11.15 ETL的新方向 426 11.15.1 极端的集成 426 11.15.2 极端的多样性 426 11.15.3 巨大的量级 426 11.15.4 实时交付 426 11.15.5 分析师的崛起和数据见解的货币化 427 11.15.6 新的分析工具 427 11.15.7 列式数据存储和内存数据库 427 11.15.8 疯狂增长的数据虚拟化 427 11.15.9 小结 427 11.16 处理数据质量：不要只是坐着，要行动起来 428 11.16.1 进行调查研究 428 11.16.2 共享发现 429 11.16.3 小结 429 11.17 数据仓库测试建议 429 11.18 处理脏数据 431 11.18.1 合格数据至关重要的应用程序 431 11.18.2 数据清洗的科学 433 11.18.3 数据清洗的市场机会 434 11.18.4 数据完整性驱动业务再造 435 11.19 用于数据质量的架构 (Kimball经典) 436 11.19.1 确立一种质量文化，再造过程 437 11.19.2 数据剖析角色 437 11.19.3 质量筛查 438 11.19.4 错误事件模式 438 11.19.5 响应质量事件 440 11.19.6 审计维度 440 11.19.7 六西格玛数据质量 441 11.20 质量指示器：审计维度 442 11.20.1 从*小可能粒度入手 443 11.20.2 报告聚合数据质量 444 11.20.3 构建审计维度 445 11.21 添加审计维度以追踪派生关系和置信度 445 11.22 为事实表增加不确定性 447 11.23 是否已经构建审计维度 448 11.24 数据是否正确 449 11.24.1 评价没有历史的数据质量 451 11.24.2 可预测变更的补充 451 11.25 对于国际化数据质量的八项建议 452 11.25.1 语言和字符集 452 11.25.2 文化、姓名和称呼 452 11.25.3 地理位置和地址 453 11.25.4 隐私和信息传输 453 11.25.5 国际化合规性 453 11.25.6 货币 453 11.25.7 时区、日历和日期格式 453 11.25.8 数字 453 11.25.9 用于国际化数据质量的架构 454 11.26 将正则表达式用于数据清洗 454 11.26.1 求助于正则表达式 455 11.26.2 基本运算符 455 11.26.3 找出“Inc” 456 11.26.4 *终结果 456 11.26.5 可以在何处使用正则表达式 457 11.27 对代理进行管道化处理 457 11.27.1 用于维度表的键 458 11.27.2 用于事实表的键 460 11.28 疏通事实表代理键管道 461 11.28.1 缺失源系统键 461 11.28.2 糟糕的源系统键 462 11.28.3 业务需求含义 463 11.29 正确复制维度 463 11.30 使用循环冗余校验和识别维度变更 464 11.31 维护指向操作源的回指指针 465 11.32 创建历史维度行 465 11.32.1 挖掘历史 466 11.32.2 探讨选项和影响 466 11.32.3 构建维度 466 11.32.4 选择每日或精确到分秒的粒度 466 11.33 面对键重置危机 468 11.34 沿时间回溯(Kimball经典) 469 11.34.1 延迟到达的事实记录 470 11.34.2 延迟到达的维度记录 470 11.35 提前到达的事实 471 11.36 渐变实体 472 11.37 将SQL MERGE语句用于渐变维度 474 11.37.1 步骤1：重写类型1 变更 474 11.37.2 步骤2：处理类型2 变更 474 11.38 创建和管理收缩维度 476 11.38.1 创建基础维度 476 11.38.2 从基础维度创建收缩维度 476 11.38.3 替代方式：分别创建基础维度和收缩维度 477 11.38.4 将维度提供给用户 477 11.39 创建和管理微型维度 477 11.39.1 创建初始微型维度 477 11.39.2 持续的微型维度维护 478 11.40 创建、使用和维护杂项维度 479 11.40.1 构建初始杂项维度 479 11.40.2 将杂项维度纳入事实行处理 480 11.40.3 维护杂项维度 480 11.41 构建桥接 481 11.41.1 历史加载 481 11.41.2 创建分组的初始化列表 481 11.41.3 创建桥接表 482 11.41.4 增量处理 483 11.42 尽量少做离线处理 483 11.43 网络时代的工作 485 11.44 实时分区 488 11.44.1 实时分区的要求 488 11.44.2 事务粒度实时分区 488 11.44.3 定期快照实时分区 489 11.44.4 累计快照实时分区 489 11.45 实时分类 490

展开全部

作者简介

Ralph Kimball创立了Kimball Group。自20世纪80年代中期开始，他就一直是DW/BI行业关于维度化方法的思想领袖，并且已经培训了超过20 000名IT专家。在任职于Metaphor和创立Red Brick Systems之前，Ralph在施乐帕克研究中心(Xerox PARC)参与创建了Star工作站。Ralph拥有斯坦福大学电子工程专业的博士学位。 Margy Ross是Kimball Group和Decision Works Consulting的董事长。她从1982年开始就专注于数据仓库和商业智能。截止现在，Margy已经为数百个客户提供过咨询服务，并且向数万人讲解过DW/BI的*佳实践。在任职于Metaphor和联合创办DecisionWorks Consulting之前，她毕业于美国西北大学，并且获得了工业工程专业的学士学位。

本类五星书