数据中台 让数据用起来
admin
2023-09-17 11:43:01
0

第一章 数据中台:信息化的下一站

核心认知:


  • 需要提升到下一代基础设置高度,进行规模化投入
  • 需要全新的数据价值观和方法论,形成平台级能力
  • 需要人才储备

三个发展阶段:


  1. 数据中台探索:结合场景但 缺少整体规划
  2. 整合数据应用提升效率:连接交换能力、数据资产化、数据服务化
  3. 重构数据空间和业务空间:通过业务空间产生数据、数据空间(生成数据、外部数据、内部交互数据)


第二章 什么是数据中台

通过中台把数据变成一种服务能力,是一套完整的机制

数据中台的实时不仅需要一套技术产品,更需要企业全面的保障和配合

核心能力:


  • 汇聚整合:解决数据孤岛问题,能够接入、转换、写入、缓存内外部多重来源数据,切支持多种部署模式
  • 提纯加工:数据资产化,连通全域数据,通过统一数据标准和质量体系,建设标准数据资产体系
  • 数据可视化:便捷快速的数据服务能力
  • 数据价值变现:提供以前单个部门或单元无法提供的数据服务能力,实现更大价值




业务中台是抽象业务流程的共性形成通用业务服务能力

数据中台是抽象数据能力的共性形成通用数据服务能力

业务中台沉淀的业务数据进入数据中台进行体系化加工,再以服务化的方式支撑业务中台上的应用,应用在产生数据形成闭环


数据仓库的主要场景是支持管理决策和业务分析

数据中台则是将数据服务化后提供给业务系统,渗透到各个环节,不限于决策分析


数据中台的业务价值:从通洞察走向赋能业务创新,形成核心壁垒


  • 以客户为中心,洞察驱动企业稳健行动
  • 以数据为基础,支持大规模商业模式创新
  • 盘活全量数据,构建坚实壁垒


数据中台的技术价值:能力多、成本低、应用广


  • 应对多数据处理的需求:满足离线、实时、查询等等
  • 丰富标签数据,降低管理成本:快速定义有效管理
  • 价值提现在业务效果而不是准确度
  • 支持夸主题域访问数据:从全域角度考虑
  • 可以快速复用而不是复制

数据中台是把数据这种生产资料变成生产力的过程


第三章 数据中台建设与架构

数据是企业的战略资产

数据中台建设方法论:


  • 1种战略行动:一把手推动
  • 2项保障条件:组织报障、数据意识(采集、标准化、使用、安全)
  • 3条目标准则:可见、可用、可运营
  • 4套建设内容:技术体系、数据体系、服务体系、运营体系
  • 5个关键步骤:理现状、立架构、建资产、用数据 、做运营

数据中台架构:


  • 数据汇聚:数据中台本身几乎不产生数据,数据来源于业务、日志、文件、网络等
  • 数据开发:加工为对业务有价值的形式
  • 数据体系:统一建设(贴源数据、统一数仓、标签数据、应用数据)
  • 数据资产管理:数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理展示
  • 数据服务体系:服务快速生成能力、管控、鉴权、计量等
  • 运营体系和安全管理:健康、持续运转的基础


第四章 数据中台建设的评估与选择

需具备特点:


  • 有一定信息化基础,沉淀了数据,实现了业务数据化过程
  • 企业业务复杂,有多个业务场景
  • 有数字化转型、精细化经营需求


第五章 数据汇聚联通:打破企业数据孤岛

让企业内部各个业务系统数据实现互联互通

在采集过程中,注意数据的隐私和安全

客户端埋点:


  • 全埋点:适用于设计标准化且有同意系统接口情况;不用频繁升级;传输成本高,会取无用数据
  • 可视化埋点: 适用于考虑存储和带宽成本的情形,通过后端配置降低采集数量,实现机制与全埋点类似;成本低,但数据不够时需重新配置后等待采集,可能影响进度
  • 代码埋点:适用于设计非标准化,事件需要代码控制情况。灵活性强,但维护难度大

服务端埋点:通过服务端部署的采集模块进行数据处理分析,常见为日志;通过服务端请求获取数据,但用户的行为有可能没通过服务器

线下采集:通过硬件设备等

互联网数据采集:网络爬虫,按照既定规则自动抓取信息

内部数据汇聚:通过中间系统流转写入


  • 结构化数据:二维逻辑展现的数据;数据库 ,excl等
  • 半结构化数据:有结构但非二维;json、xml等
  • 非结构化数据:不规则或不完整;文档等


时效性:


  • 离线:用于大批量周期性迁移;全量、增量等方式
  • 实时:低延迟数据应用场景


不建议ETL建议ELT,对数据更有保障


实时数据同步两个核心服务:


  • 数据订阅服务:订阅、读取、任务实例的启停控制
  • 数据消费服务:任务状态控制、数据歇息、过滤、转换、写入等


第六章 数据开发:数据价值提炼工厂

数据开发的产品能力:


  • 离线开发:离线数据的加工、发布,运维
  • 实时开发:实时接入能力和实时处理
  • 算法开发:简单的可视化拖拽方法等方式来实现数据价值挖掘


数据计算能力:


  • 批计算:批量数据的高延迟处理场景,离线数据的加工、大规模数据清洗挖掘等(批处理)
  • 流计算:实时流计算,时效性强,常见于监控告警场景(微批处理、逐条处理)
  • 在线查询:数据结果的在线查询、条件过滤筛选等,有缓存型、常规型等,企业可能同时存在多套服务(逐条处理、检索过滤)
  • 即席分析:用于分析场景和经验统计,提前固定计算维度等。(批处理、聚合)


离线开发:


  • 作业调度:依赖调度(父作业完成子作业运行)、时间调度(到点运行)
  • 基线控制:管理不同作业运作优先级,完成时间预测等,满足急用数据情况下的问题处理
  • 异构存储:针对不同类型计算引擎开发不同组件,满足企业多元化趋势
  • 代码校验:严格管控,语法校验、规则校验
  • 多环境级联: 多环境便于资源、权限控制和隔离;单一环境(只有生产环境);经典环境(开发环境、生产环境);复杂环境(内部开发环境、外部开发环境、内部生产环境)
  • 推荐依赖:自动推荐上游作业,减轻追朔负担
  • 数据权限:统一数据权限管理


实时开发:实时且无界的数据流、持续高效的计算、流式切实时的数据集成


  • 元数据管理:对元数据进行同意维护,数据与元数据解耦,实时数据自动对应元数据形成数据流
  • SQL驱动:SQL化可大大节省开发人员的工作量
  • 组件化开发:通过拖拽组件快速配置


第七章 数据体系建设

数据中台体系特征:


  • 覆盖全域数据:覆盖所有业务过程
  • 结构层次清晰:纵向数据分层,横向主题域
  • 数据准确一致:定义一致性指标,统一命名、业务含义、计算指标
  • 性能提升:统一规划设计,合理的数据模型
  • 降低成本:数据体系建设使数据能被业务共享,避免重复,节省成本
  • 方便易用:复杂处理尽可能前置


数据分层:


  • 贴源数据层:尽可能保留原始业务数据,仅做简单整合、非结构化数据结构化处理、标信息等,不做深度清洗加工
  • 统一数仓层:对历史数据建模存储,对业务数据重新组织;从业务角度定义一致标准、维度、板块、域,形成统一规范的标准数据体系
  • 标签数据层:对跨业务板块、域等特定对象进行整合,各个业务过程中的同一对象进行打通,形成全域标签体系
  • 应用数据层:按业务需求从统一数仓层、标签数据层抽取数据,并面向业务组装应用数据


相关概念:


  • 修饰词:统计维度以外的对指标进行限定抽象的业务场景词语,如PC、无线端;为了方便管理
  • 原子指标:对某一行为的度量,是一种不可拆卸的指标。通常用“动作+度量”命名,如支付金额、注册用户数等
  • 派生指标:对原子指标业务统计范围的圈定,等于“1个原子指标+多个修饰词+时间修饰词”
  • 例如:最近一天(时间周期)北京(修饰词)买家(维度)支付金额
  • 维度表:观察事物的角度、属性表述;维度表是统一设计,整个数仓中共享的
  • 事实表:观察事物的事实数据,来自业务过程中数据的度量,基本都是数值;
  • 粒度:确定维度或事实表之前必须明确粒度,每个维度和事实都必须与粒度保持一致


数据域划分:


  • 数据调研:业务调研、数据调研
  • 业务分析:业务过程提取、拆分、分类
  • 数据域定义:业务分类确认、数据域定义、数据域命名
  • 总线矩阵构建:关系梳理、矩阵构建


维度表设计:


  • 选择维度
  • 确定主维度
  • 梳理关系维度表
  • 定义维度属性


事实表设计:


  • 确定业务过程
  • 定义粒度
  • 确定维度
  • 确定事实
  • 冗余维度属性


第八章 数据资产管理

数据资产的特征:


  • 企业拥有或控制
  • 能带来经济利益
  • 数据资源


数据资产管理的目标:


  • 可见:全面盘点形成地图,可快速精确查找
  • 可懂:通过元数据管理完善资产描述,注重业务描述提炼,标签化
  • 可用:统一标准、提升质量、安全性等,增强数据可信度,可放心使用
  • 可运营:建立数据驱动的组织流程、制度、体系,提升管理水平、数据价值


元数据:


  • 元数据是描述数据的数据
  • 元数据管理是数据治理的核心基础


元数据分类:


  • 技术元数据:库表结构、字段约束、数据模型、ETL程序、SQL程序等
  • 业务元数据:业务指标、业务代码、业务术语等
  • 管理元数据:数据所有者、数据质量定责、数据安全等级等


元数据的应用:


  • 元数据浏览和检索:提升共享
  • 数据血缘和影响分析:快速追朔问题,定位改动影响
  • 数据冷热度分析:下线无价值数据,节省存储


主数据:描述企业核心业务实体的基础数据


  • 主数据相关标准规范设计
  • 主数据建模
  • 主数据梳理与集成
  • 主数据质量管理
  • 灵活的主数据共享服务
  • 主数据维护流程


数据质量问题产生的根源是管理不善

数据质量评估标准:准确性、完整性、一致性、有效性、唯一性、及时性、连续性、合理性


生命周期管理:


  • 不可恢复数据:建议永久保存
  • 可恢复数据:通过加工产生数据,设置保存时常


数据资产管理的7个成功要素:


  • 强有力的组织架构
  • 清晰的数据战略
  • 重视数据的企业文化
  • 合理的制度与流程
  • 标准与规范
  • 成熟的软件平台
  • 科学的项目实施


第九章 数据服务体系建设

数据服务是对数据进行计算逻辑封装、生成API服务,上层数据应用可对接数据服务API,让数据快速应用到业务场景中


数据服务分类:


  • 基础数据服务:通过自定义sql完成全域物理表数据指标获取和分析
  • 标签画像服务:通过界面配置形式,实现全域标签分析计算,加速开发
  • 算法模型服务:通过界面配置,将算法模型一键部署为在线API,支撑业务应用


数据服务核心价值:


  • 确保数据在业务层全域流通
  • 降低数据接口重复建设
  • 报障数据获得的及时性和稳定性
  • 数据能力扩展


第十章 数据中台运营机制

使命及目标:


  • 数据安全及质量是中台可持续运营的基础
  • 提效降本是打造中台影响力的关键


可阅读、易理解、好使用、有价值


相关质量指标:使用准确率、调用量、受众热度、可用率、故障率、关注热度、持续优化度、持续使用度、成本性价比


资产分级:


  • 按资产与核心业务关联度
  • 按资产敏感程度
  • 按资产更新周期


数据成本优化:


  • 原始数据成本优化
  • 过程数据成本优化
  • 结果数据成本优化


常见需注意加工逻辑:


  • 重复计算
  • 冗余计算
  • 低价值计算
  • 调度不合理
  • 频率不符


高层的数据战略是人、财、物持续投入的报障,有高层的数据战略才有全集团的数据意识

把规范融入工具中,是成功的关键

要有数据委员做顶层设计,制定建设目标、规范、制度并推动执行


第十一章 数据安全管理

4大损害:


  • 个人安全
  • 组织安全
  • 公共安全
  • 国家利益


4大挑战:


  • 平台安全
  • 服务安全
  • 数据本身安全
  • 高级可持续威胁攻击防御


数据生命周期:


  • 产生
  • 存储
  • 传输
  • 使用
  • 共享
  • 销毁

相关内容