【大数据】数据标准讲解
admin
2023-09-16 09:43:09
0

数据标准的背景
在数据管理的模块域中,数据标准重要性非常之大,属于事前的整理。无规矩不成方圆,任何事物都需要有一套标准,基于这套标准去执行,才会清晰。没有数据标准通常会遇到的问题:
1.数据命名规范混乱,导致理解不一致,沟通成本高,数据同名不同义导致错误
2.没有清晰的元数据信息,导致数据共享、使用难、难以管理、数据来源不明

数据标准的价值
数据标准核心目标是为业务、技术、管理提供服务。




业务:通过对实体数据的标准化定义,可以解决数据不一致、不完整、不准确等问题,。通过对数据的标准化定义让数据在企业内有一个全局的定义,大大减少了各部门、各系统间的沟通成本。
技术:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提示应用开发的实施效率;很大程度上数据质量管理都是依赖于数据标准,在数据标准之上才能定义数据质量。
管理:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;

数据标准的使用场景
建立统一的数据视图:建立通用的元模型规范,支持用户自定义扩展,对多源异构数据表进行信息抽象提取,形成统一的元数据层。所有的数据开发完成后发布到数据标准维护的统一的数据目录,通过不同维度的数据目录进行多维筛选,满足各类用户的检索需要,达到资产的可管、可用、可查的目标。
建立统一的数据认知:通过对多源异构数据的标准化描述,就算数据在不同系统的称呼千奇百怪,但是至少流入大数据的场景后就会统一描述,使管理方、开发方、使用方统一认知。
建立质量审核体系:在数据标准统一的前提下,我们就可以基于标准的元数据信息,进行质量的监控和审核,提升数据质量,更大化的体现数据价值
面向未来的数据治理:工具的终极目的都是为了降本提效。效率的提升要依靠流程规范,流程主够规范,在某种程度上就可实现流程自动化流转,所以数据治理如果要成为流程自动化、阶段智能化的阶段,那么就需要数据标准的支持。

数据标准的定义
数据标准就是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,来对数据定义、分类、格式、编码等标准化管理。通俗地讲,对企业来说,数据标准就是对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。
数据标准不是形成各种文档,而是形成规范文档后要落地。
数据标准是保障数据内外部使用和交换一致性和准确性的规范性约束。数据标准管理是用来规范数据标准制定和实施的活动。
数据标准是进行数据标准化输出的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的基础,有利于底层互通、提升可用性
“数据标准”并非是一个专有名词,而是一系列“规范性约束”的抽象。
数据标准的定义要遵循六大原则:

  1. 共享性:数据标准定义的对象是具有共享和交换需求的数据,作为全企业共同遵循的准则,数据标准并不为特定部门服务,要具有跨部门的共享特性
  2. 唯一性:标准的命名、定义等内容要具有唯一性,不允许存在同一层次下标准内容出现二义性
  3. 稳定性:数据标准需要保证其权威性,不可以频繁进行修改和删除。
  4. 可扩展性:数据标准并非一成不变,可以按照版本管理的方式去进行修改,保障变化后不会影响其余模块的变化,方便维护
  5. 前沿性:数据指标定义一定要参考国际标准、结合行业标准、再结合公司特色提出
  6. 可行性:一定要充分评估其可行性

数据标准产出:
需要输出的数据标准产出物:标准词库、数据元标准、代码标准。

如何开展数据标准落地?

  1. 存量数据标准的评估
  2. 更新数据标准对上下游的影响分析
  3. 寻找最佳试点业务进行落地,成效明显的项目
  4. 扎实的落实规范,有效执行落地


数据标准分类:
一般数据标准的分类会分为3个大类:

  1. 数据模型标准,也就是元数据的标准化,例如数仓分层标准、元数据标准
  2. 库表数据标准,针对库表里的数据进行标准化,包括表、字段的定义,一般都有词根管理、数据字典
  3. 指标数据标准,他是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。他会对业务指标所涉及的指标项进行统一定义和管理。



数据标准设计流程




如何建立数据标准
早期业务发展阶段,各业务线已经建设了自己的业务系统,为了保证内部通信,其实或多或少都已经存在了局部的数据标准。所以建设统一的数据标准很大程度上是对局部标准进行收口,我们可以收集国家标准或者行业标准,然后和他们进行对标,然后结合自身行业特点去逐步构建数据标准在企业内推动。
一般有6个步骤:数据标准规划、数据标准制定、数据标准发布、数据标准执行、数据标准检查、数据标准维护。

数据标准规划
标准的规划首先需要对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。再根据实际情况的不同,逐步推进。

  1. 收集行业标准,从业务流程出发,对业务实体进行圈定,基于国家数据标准对该实体的属性进行国家数据标准对应。
  2. 从局部标准到全局标准,各业务线肯定有自己的标准,但是如果想要进行跨业务线数据打通,那么我们就需要统一的数据标准,这个过程需要打通各业务线进行统一标准评审并发布。


数据标准制定
元数据标准制定
需要对元数据进行标准制定,包括模型层、元模型层、元元模型层。
理解一下元数据的一些概念:






命名及编码规则制定
命名规则目的是规范表名、字段名等等,编码规则主要是指用户资产表名、标签编码的定义,或者用什么编码方式等
平台需要做的就是:

  1. 整理对应的枚举值供用户选择
  2. 用户可自定义枚举值,在有限的条件下
  3. 平台提供组装能力拼接成对应的值

数据目录规范制定
根据管理元数据区区分数据目录,例如数仓设计分层、数据安全分类、数据来源分类,去区分不同的数据

基础数据标准
词根制定
词根是为了标准的命名更加规范统一,最终将被应用在字段命名或其他资产命名上。企业可根据自身积累,对词根进行收集,形成自己的词根库,在制定数据元及字典时,可根据输入的中文名称自动根据词根翻译英文名称。
一个完整的词根信息包含英文简称、英文全称、中文全称三个部分,其中文全称支持多个,保证用户在使用词根翻译时相同含义字段能够获取相同的英文简称。另外,为了便于统一管理,需对词根的编码及词根来源进行指定。

数据元的制定




对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;
特性:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;
表示:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;
其中,值域可通过名称或码值直接给出、也可通过参考资料给出、也可通过绑定数据字典给出。
例如:完整的数据元名称应当为:“对象类词+特性词+表示词”,如人性别代码。

数据字典的制定
数据字典是参照类数据标准的具象体现,一般分为原始字典及标准字典,原始字典指源系统或生产系统中某个原始项数据内容的枚举集合,标准数据字典一般用于作为数据元值域而存在,在数据处理过程中需要完成原始字典到标准字典的映射,完成字典标准化工作。
数据字典核心是其码值列表,码值列表至少要包含两项信息:代码、代码描述,必要时可增加说明字段进行补充。




获得码表的方式:

  • 原始字典:数据库逆向采集、元数据注册时填写字段枚举值、数据探查时值域分布计算、手动录入;
  • 标准字典:现行标准的结构化提取、标准识别结果分析、手动录入。



数据标准发布
一般数据标准建议遵循草案、试用、标准、废止的生命周期流转,但可根据实际情况进行简化。对于数据元、数据字典尽可能遵循此生命周期管理,对于词根、数据分类、元模型等可简化流程,可采取草案、上线、下线的生命周期管理。

数据标准执行
数据标准执行主要分两块,第一块是正在进行数据治理的各个阶段进行应用,第二块是新建系统和历史存在的业务系统的应用。
对于新建的业务系统必须严格按照发布的标准进行设计,对于存量的系统可通过探查、智能识别的手段建立映射关系。

  • 元数据:需要从业务属性、技术属性、管理属性三个方面对元数据进行描述,需要定义具体的描述项
  • 数据资产:需要对各类资产进行盘点,需要定义资产编码及命名规范、定义分类依据、上线标准
  • 数据质量:需要建立稽核规则,需要构建质量检测体系
  • 数据安全:需要对数据进行分级分类,需要定义数据项分类依据、敏感信息的识别依据
  • 模型设计:需要定义数据模型、数据指标、维度度量等数据的标准
  • 数据传输:需要对接不同种数据源、来源系统,需要制定不同系统、数据源间的交换依据
  • 数据开发:需要定义数据处理依据,字段及字典映射逻辑、各类数据源SQL模板



数据标准检查
数据标准执行后,需要进行落标检查,确认标准执行的情况以及效果。
可参考相关指标,从标准侧进行标准的引用统计、标准化率统计,从质量侧统计表及字段质量评分,多角度去判断指标执行情况及应用效果。

数据标准维护
维护数据标准

  • 在实际执行的过程中,可能现行标准发生修订,企业自身业务规则发生变化,都需要对已发布的标准进行修订
  • 修订要严格按照生命周期流转要求,记录版本变化,评估变更影响,在进行重新发布生效


沉淀数据标准

  • 随着标准的累计,我们需要沉淀所在行业的标准
  • 通过标准沉淀,建立标准资产,形成行业最佳实践,提升企业在所在行业的地位

姓名、性别、学号都是数据元,但是这些数据元有自己的元数据,即描述数据,分别是长度、类型、值域等。

数据标准产品架构





数据标准实践
(取自该篇文章,很好的通过一个例子实践来说明数据标准的落地,下面我对该文章进行总结输出,https://mp.weixin.qq.com/s/u_pkuxRl3R-UiN9ddLR50g)

流程介绍




目标
基于船舶维度表原始数据(仅举例一个来源表)来介绍标准如何产生,以及如何基于数据标准来构建船舶维度表以及对应的质量检测任务。

数据调研
数据调研主要是对客户业务以及数据盘点的过程,实际上要调研的内容很多。包括调研数据种类、数据的存储位置(环境、数据源类型、数据源、库/Schema)、更新频率、数据来源、存储策略、业务逻辑、数据量、数据字典、ER关系等等,最终输出一份调研报告,作为过程资产,并且越仔细越好,当然如果之前有维护这块的元数据信息就更方便了。
下面就拿一个来源表作为例子,如图:





标准规划
首先需要考虑是否有行业标准等可以直接引入,若没有才是自定义标准。
词根拆解
先将原始字段进行词根拆解,将词拆分成一个个中文词根,为后续定义词根标准做准备





数据项规划
数据项规划式通过调研不同来源表,梳理需要进行标准制定的数据项。对代码类字段一般需要扩展他的描述字段





标准设计
标准定义流程




若需要通过系统规范命名那么就需要定义词根;若该数据元值域为枚举,那么就需要定义数据字典;若需要对数据元进行多角度的分类,那么则需要定义数据项分类;若需要定义统一的资源目录供表、指标、标签去使用,则需要定义资源目录

词根定义
词根数据准备,基于前面的词根去重结构对其进行定义并录入




词根录入,添加词根,如图:




然后按照该步骤把其余都录入即可。

数据元及数据字典定义
基于数据项规划对每个字段进行相关的数据标准定义如图,值域上有枚举值的需要定义好值域类型,有取值范围的定义好范围;然后对各个字段的格式也进行定义。




下面是几个有代表性的数据项定义,尤其是格式的解释




标准字典定义
字典基础信息填写






字典码表信息






提交审批,审核完成后即可使用。

数据元定义








完成基本信息的填写后,可以并行配置质量稽核规则




完成后进行审批,发布。
(以上词根、码表、数据字典、数据元就都设计完了,下面就需要建表,在建表的时候对字段进行选择)

模型设计
数据标准的建立让模型设计变得更规范。在模型设计时,比如我们需要建立一张船舶维度表,假设该表只有5个字段,即可通过我们建立的数据元来构建该表。
填写表信息




填写字段信息




每个在数据元管理中有记录的字段都可以选择对应的数据元即可,至于该字段的其余属性会自动生成,保证了命名及含义的规范性。




建表过程中再补充其余信息即可提交建表,审核通过后及生效。

质量设计
数据标准最终还是要赋能在数据质量上的。
进入数据质量中心新建监控并配置,新建质量规则,提交质量规则,然后质量监控任务完成。


*以上是自己在平时学习和工作中实践时的总结,有的内容是从其他文章汇总转摘过来的,若侵权了,麻烦联系下我,我进行修改~

相关内容