第一章 数据中台:信息化的下一站
核心认知:
- 需要提升到下一代基础设置高度,进行规模化投入
- 需要全新的数据价值观和方法论,形成平台级能力
- 需要人才储备
三个发展阶段:
- 数据中台探索:结合场景但 缺少整体规划
- 整合数据应用提升效率:连接交换能力、数据资产化、数据服务化
- 重构数据空间和业务空间:通过业务空间产生数据、数据空间(生成数据、外部数据、内部交互数据)
第二章 什么是数据中台
通过中台把数据变成一种服务能力,是一套完整的机制
数据中台的实时不仅需要一套技术产品,更需要企业全面的保障和配合
核心能力:
- 汇聚整合:解决数据孤岛问题,能够接入、转换、写入、缓存内外部多重来源数据,切支持多种部署模式
- 提纯加工:数据资产化,连通全域数据,通过统一数据标准和质量体系,建设标准数据资产体系
- 数据可视化:便捷快速的数据服务能力
- 数据价值变现:提供以前单个部门或单元无法提供的数据服务能力,实现更大价值
业务中台是抽象业务流程的共性形成通用业务服务能力
数据中台是抽象数据能力的共性形成通用数据服务能力
业务中台沉淀的业务数据进入数据中台进行体系化加工,再以服务化的方式支撑业务中台上的应用,应用在产生数据形成闭环
数据仓库的主要场景是支持管理决策和业务分析
数据中台则是将数据服务化后提供给业务系统,渗透到各个环节,不限于决策分析
数据中台的业务价值:从通洞察走向赋能业务创新,形成核心壁垒
- 以客户为中心,洞察驱动企业稳健行动
- 以数据为基础,支持大规模商业模式创新
- 盘活全量数据,构建坚实壁垒
数据中台的技术价值:能力多、成本低、应用广
- 应对多数据处理的需求:满足离线、实时、查询等等
- 丰富标签数据,降低管理成本:快速定义有效管理
- 价值提现在业务效果而不是准确度
- 支持夸主题域访问数据:从全域角度考虑
- 可以快速复用而不是复制
数据中台是把数据这种生产资料变成生产力的过程
第三章 数据中台建设与架构
数据是企业的战略资产
数据中台建设方法论:
- 1种战略行动:一把手推动
- 2项保障条件:组织报障、数据意识(采集、标准化、使用、安全)
- 3条目标准则:可见、可用、可运营
- 4套建设内容:技术体系、数据体系、服务体系、运营体系
- 5个关键步骤:理现状、立架构、建资产、用数据 、做运营
数据中台架构:
- 数据汇聚:数据中台本身几乎不产生数据,数据来源于业务、日志、文件、网络等
- 数据开发:加工为对业务有价值的形式
- 数据体系:统一建设(贴源数据、统一数仓、标签数据、应用数据)
- 数据资产管理:数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理展示
- 数据服务体系:服务快速生成能力、管控、鉴权、计量等
- 运营体系和安全管理:健康、持续运转的基础
第四章 数据中台建设的评估与选择
需具备特点:
- 有一定信息化基础,沉淀了数据,实现了业务数据化过程
- 企业业务复杂,有多个业务场景
- 有数字化转型、精细化经营需求
第五章 数据汇聚联通:打破企业数据孤岛
让企业内部各个业务系统数据实现互联互通
在采集过程中,注意数据的隐私和安全
客户端埋点:
- 全埋点:适用于设计标准化且有同意系统接口情况;不用频繁升级;传输成本高,会取无用数据
- 可视化埋点: 适用于考虑存储和带宽成本的情形,通过后端配置降低采集数量,实现机制与全埋点类似;成本低,但数据不够时需重新配置后等待采集,可能影响进度
- 代码埋点:适用于设计非标准化,事件需要代码控制情况。灵活性强,但维护难度大
服务端埋点:通过服务端部署的采集模块进行数据处理分析,常见为日志;通过服务端请求获取数据,但用户的行为有可能没通过服务器
线下采集:通过硬件设备等
互联网数据采集:网络爬虫,按照既定规则自动抓取信息
内部数据汇聚:通过中间系统流转写入
- 结构化数据:二维逻辑展现的数据;数据库 ,excl等
- 半结构化数据:有结构但非二维;json、xml等
- 非结构化数据:不规则或不完整;文档等
时效性:
- 离线:用于大批量周期性迁移;全量、增量等方式
- 实时:低延迟数据应用场景
不建议ETL建议ELT,对数据更有保障
实时数据同步两个核心服务:
- 数据订阅服务:订阅、读取、任务实例的启停控制
- 数据消费服务:任务状态控制、数据歇息、过滤、转换、写入等
第六章 数据开发:数据价值提炼工厂
数据开发的产品能力:
- 离线开发:离线数据的加工、发布,运维
- 实时开发:实时接入能力和实时处理
- 算法开发:简单的可视化拖拽方法等方式来实现数据价值挖掘
数据计算能力:
- 批计算:批量数据的高延迟处理场景,离线数据的加工、大规模数据清洗挖掘等(批处理)
- 流计算:实时流计算,时效性强,常见于监控告警场景(微批处理、逐条处理)
- 在线查询:数据结果的在线查询、条件过滤筛选等,有缓存型、常规型等,企业可能同时存在多套服务(逐条处理、检索过滤)
- 即席分析:用于分析场景和经验统计,提前固定计算维度等。(批处理、聚合)
离线开发:
- 作业调度:依赖调度(父作业完成子作业运行)、时间调度(到点运行)
- 基线控制:管理不同作业运作优先级,完成时间预测等,满足急用数据情况下的问题处理
- 异构存储:针对不同类型计算引擎开发不同组件,满足企业多元化趋势
- 代码校验:严格管控,语法校验、规则校验
- 多环境级联: 多环境便于资源、权限控制和隔离;单一环境(只有生产环境);经典环境(开发环境、生产环境);复杂环境(内部开发环境、外部开发环境、内部生产环境)
- 推荐依赖:自动推荐上游作业,减轻追朔负担
- 数据权限:统一数据权限管理
实时开发:实时且无界的数据流、持续高效的计算、流式切实时的数据集成
- 元数据管理:对元数据进行同意维护,数据与元数据解耦,实时数据自动对应元数据形成数据流
- SQL驱动:SQL化可大大节省开发人员的工作量
- 组件化开发:通过拖拽组件快速配置
第七章 数据体系建设
数据中台体系特征:
- 覆盖全域数据:覆盖所有业务过程
- 结构层次清晰:纵向数据分层,横向主题域
- 数据准确一致:定义一致性指标,统一命名、业务含义、计算指标
- 性能提升:统一规划设计,合理的数据模型
- 降低成本:数据体系建设使数据能被业务共享,避免重复,节省成本
- 方便易用:复杂处理尽可能前置
数据分层:
- 贴源数据层:尽可能保留原始业务数据,仅做简单整合、非结构化数据结构化处理、标信息等,不做深度清洗加工
- 统一数仓层:对历史数据建模存储,对业务数据重新组织;从业务角度定义一致标准、维度、板块、域,形成统一规范的标准数据体系
- 标签数据层:对跨业务板块、域等特定对象进行整合,各个业务过程中的同一对象进行打通,形成全域标签体系
- 应用数据层:按业务需求从统一数仓层、标签数据层抽取数据,并面向业务组装应用数据
相关概念:
- 修饰词:统计维度以外的对指标进行限定抽象的业务场景词语,如PC、无线端;为了方便管理
- 原子指标:对某一行为的度量,是一种不可拆卸的指标。通常用“动作+度量”命名,如支付金额、注册用户数等
- 派生指标:对原子指标业务统计范围的圈定,等于“1个原子指标+多个修饰词+时间修饰词”
- 例如:最近一天(时间周期)北京(修饰词)买家(维度)支付金额
- 维度表:观察事物的角度、属性表述;维度表是统一设计,整个数仓中共享的
- 事实表:观察事物的事实数据,来自业务过程中数据的度量,基本都是数值;
- 粒度:确定维度或事实表之前必须明确粒度,每个维度和事实都必须与粒度保持一致
数据域划分:
- 数据调研:业务调研、数据调研
- 业务分析:业务过程提取、拆分、分类
- 数据域定义:业务分类确认、数据域定义、数据域命名
- 总线矩阵构建:关系梳理、矩阵构建
维度表设计:
事实表设计:
第八章 数据资产管理
数据资产的特征:
数据资产管理的目标:
- 可见:全面盘点形成地图,可快速精确查找
- 可懂:通过元数据管理完善资产描述,注重业务描述提炼,标签化
- 可用:统一标准、提升质量、安全性等,增强数据可信度,可放心使用
- 可运营:建立数据驱动的组织流程、制度、体系,提升管理水平、数据价值
元数据:
- 元数据是描述数据的数据
- 元数据管理是数据治理的核心基础
元数据分类:
- 技术元数据:库表结构、字段约束、数据模型、ETL程序、SQL程序等
- 业务元数据:业务指标、业务代码、业务术语等
- 管理元数据:数据所有者、数据质量定责、数据安全等级等
元数据的应用:
- 元数据浏览和检索:提升共享
- 数据血缘和影响分析:快速追朔问题,定位改动影响
- 数据冷热度分析:下线无价值数据,节省存储
主数据:描述企业核心业务实体的基础数据
- 主数据相关标准规范设计
- 主数据建模
- 主数据梳理与集成
- 主数据质量管理
- 灵活的主数据共享服务
- 主数据维护流程
数据质量问题产生的根源是管理不善
数据质量评估标准:准确性、完整性、一致性、有效性、唯一性、及时性、连续性、合理性
生命周期管理:
- 不可恢复数据:建议永久保存
- 可恢复数据:通过加工产生数据,设置保存时常
数据资产管理的7个成功要素:
- 强有力的组织架构
- 清晰的数据战略
- 重视数据的企业文化
- 合理的制度与流程
- 标准与规范
- 成熟的软件平台
- 科学的项目实施
第九章 数据服务体系建设
数据服务是对数据进行计算逻辑封装、生成API服务,上层数据应用可对接数据服务API,让数据快速应用到业务场景中
数据服务分类:
- 基础数据服务:通过自定义sql完成全域物理表数据指标获取和分析
- 标签画像服务:通过界面配置形式,实现全域标签分析计算,加速开发
- 算法模型服务:通过界面配置,将算法模型一键部署为在线API,支撑业务应用
数据服务核心价值:
- 确保数据在业务层全域流通
- 降低数据接口重复建设
- 报障数据获得的及时性和稳定性
- 数据能力扩展
第十章 数据中台运营机制
使命及目标:
- 数据安全及质量是中台可持续运营的基础
- 提效降本是打造中台影响力的关键
可阅读、易理解、好使用、有价值
相关质量指标:使用准确率、调用量、受众热度、可用率、故障率、关注热度、持续优化度、持续使用度、成本性价比
资产分级:
- 按资产与核心业务关联度
- 按资产敏感程度
- 按资产更新周期
数据成本优化:
常见需注意加工逻辑:
高层的数据战略是人、财、物持续投入的报障,有高层的数据战略才有全集团的数据意识
把规范融入工具中,是成功的关键
要有数据委员做顶层设计,制定建设目标、规范、制度并推动执行
第十一章 数据安全管理
4大损害:
4大挑战:
- 平台安全
- 服务安全
- 数据本身安全
- 高级可持续威胁攻击防御
数据生命周期: