本文主要针对公司对数据中台的使命和定位做一个总结,形而上的阐述迪塔维公司多年来的产品、技术理念,希望能够为行业用户提供一些帮助。
l 熵增定律
熵增定律学名叫做热力学第二定律,它定义了能量的流动方向永远从高温流向低温。当代人越来越多人重视这一定律,将其视为人类社会的底层逻辑。简单来说熵增定律的意思就是:世界会越来越混乱。
薛定谔在《生命是什么》这本书中利用熵增定律来解释人类、生命、自然和社会。自然万物(包括我们的信息系统)都趋向从有序到无序,从活跃到死寂。而自然万物自身就需要持续的对抗熵增,使自己维持在一个稳定而低熵的水平上,这种对抗熵增的做法又被称为负熵,解决逻辑叫做:构建耗散结构(非孤立的动态平衡系统),这样的结构可以通过负熵流持续对抗熵增。所以薛定谔总结到:生命是耗散结构,以负熵为食,以对抗熵增为生。
l 教育信息化中的熵增
熵增定律、耗散结构和信息化有什么关系?为了说明他们之间的关系,我们可以一起回顾一下教育信息化的建设场景:
在高校信息化建设的过程中,随着业务的发展,数据、业务也会越来越多、越来越复杂、越来越混乱。很多信息化起步较早的高校已经发现,无论办事大厅还是数据治理,无论是硬件设备还是校园网络,所覆盖的业务、数据、节点、场景越来越多,无序、混乱的状态随处可见,通过各种管理制度、审批流程来维持相对稳定增长的状态。在这个过程中如果不加以外力干预,任其自由发展,那么信息化建设将会越来越混乱,混乱到无法管理或无力管理而最终导致崩溃的地步。
以大部分高校的数据资产现状来说,普遍存在的是数据孤岛、数据沼泽等问题,与其说这是存在的问题,倒不如说这是一种正常现象,是熵增定律所致的正常现象。
当“熵”增长到一定程度,系统无力运营、数据无处安放,此时的做法一般是“升级”或“重构”,通过颠覆的手段对付熵增。但这种做法并不能够从本质上解决问题,因为还会开启新一轮熵增的里程,而这样的循环显然是不健康的。
l 数据中台在对抗熵增中的作用
治标终须治本,如何对抗熵增、解决问题,那就是建立信息化管理的耗散结构,要有持续的外力做功,并且建立一个开放的系统。而这个系统就是数据中台。
首先,数据中台的落地的过程中对整个教育信息化建设起到了外力持续做功的作用,这种作用体现在两种方式上:牵引和推动。
牵引:以国家标准和主数据建设作为主线,实现数据标准在上,数据资源建设作为载体的格局。信息化建设以完整、规范、标准的校级数据资源目录体系作为建设指导,逐步输出数据资源,填充国标资源目录,完成数据的规范化和持续的供给。主数据作为数据资源最基础的共享需求载体,可以总结历史经验,完成校级主数据甚至全域数据规范,自上而下达成数据共识,不断推动数据持续采集和供给的工作。
心理学理论霍桑效应表明,在可能的情况下,人们都希望在被“看见”的时候,展现出一个更好的自己。那么向上牵引的思路就是让数据展现出来,让部门和系统的数据暴露在规范和阳光之下,让数据资源建设更能普及到人、到组织,更多的呈现数据资源建设和供给能力,产生一种校级的数据建设向心力。
推动:自底向上的方式以日常师生信息化痛点及业务困境为出发点,例如院部级数据填报场景(例如高基报表、十四五数据统计上报),教师及单位考核场景、学生综合评估等场景。数据中台作为这类综合场景的底层支撑,实际上起到了推动数据收集,数据需求认领的作用。通过中台坚持并专注去做数据联通、数据采集等低收益但半衰期长的工作,让数据永远处于流动的状态,坚持做功,逐步形成数据的复利效应,推动信息化工作的有序开展。
牵引和推动作为持续的外力做功动因,可以促进高校信息化建设的自循环,而构建流水自流花自开的健康生态还需要在战术上执行动态的OKR(目标与关键成果法)式目标驱动管理机制。因为,动态的数据生态不可能依靠挂在墙上的数据管理制度、挂在网上的数据资源目录就能形成的,任何信息化工作都是持续甚至循环的过程,要靠不断的目标(O)和关键结果(krs)来达成。
目标驱动:OKR目标管理的核心是解决两个问题,1是我们想去哪儿?2是我们如何通过衡量以确保我走在正确的道路上?围绕OKR管理方法的两个核心问题,数据中台应该是目标驱动的,且融合了标准实施方法论的系统。数据中台需要将全域数据中心每一分层中的数据建设标准化为各类O(目标),告知数据治理建设过程的目标和方向:完成高质量的数据资源管理中心,完善每一层数据的价值。
以迪塔维在数据湖层面的建设为例,我们要保障数据入湖率、数据识别率、实时入湖率等关键目标,在目标指引下避免熵增带来的数据沼泽风险。同时在数据湖实施过程中,为了保障数据管理人员能够正确的、高质量的达成目标,数据中台产品还需要提供引导式的关键实施步骤:例如主键标注、数据注释、数据对标等,以关键步骤来保障核心目标。通过如此逐步的迭代,完成每一个微闭环,最终提升整体的信息化治理水平。
l 数据中台的耗散结构
耗散结构是非孤立的动态平衡系统,对应到信息化,通俗来说就是体系要开放,对外要“循环”,这种动态平衡系统的核心特征是有出、有入。外力的持续做功可以解决“入”的问题,实现数据资源的逐步汇聚;而“出”的动能则来自于数据中台自身的能力。
目前绝大多数数据中台系统都会对外提供标准API、消息、数据等各种接口,但能力终归只是能力,能不能用起来是关键。要想解决对外的输出,一定要有“内力”做功,同样需要方法论来保障。这个方法论就是持续做数据与价值的联结,依托“全数据链”架构,做到数据治理和应用的连接闭环,提供“自助服务能力”,实现数据价值由内而外的不断“涌出”,建设一个开放的系统。
全数据链的核心思路是:自动记录数据全生命周期链路,记录时间、血缘、纠错、补录等信息,能够清晰的呈现每一项数据的来龙去脉,释放数据管理人员的压力,实现数据管理的去中心化,同时将数据的对外服务、展现转变为数据治理、回填的窗口,实现数据的增值循环。
数据中台在这样的循环系统中发挥的最关键的作用是赋能、是解决矛盾,解决数据应用需求的多变性与数据加工过程复杂性之间的矛盾,解决数据使用与管理的闭环问题,将数据治理和应用体系连接在一起,形成开放的系统。
l 全民参与的数据治理
耗散结构是基础,而全民参与则是保障耗散结构运转的关键因素,要想实现全民参与的自助式数据治理需要三个前提条件:业务化的数据、安全管控和数据鉴权、易用的中台工具。
1、数据业务化,是数据形态的转变,通俗来说是将数据库中存储的数据变成业务人员能够看的懂的数据。这个过程需要完成两项工作,一个是通过元数据技术将数据的描述做健全,把对数据的“解释”做到位,让人看的懂,让人能会用;二是通过指标计算,将技术化的明细数据重组,形成各个业务场景中大家都能理解的数据指标。经过元数据和指标计算两个步骤的处理,可以提升数据的业务化水平,真正让人用起来。举例来说,利用工号和教职工类别代码,构建出几个指标:专任教师人数、退休教职工人数等,元数据详细解释什么状态的老师、符合什么条件的老师是退休教职工,这样一来,数据变成了业务语言,各业务部门可以直接使用。
2、安全管控和鉴权,通俗来说是数据的分级分类、一数一源的工作,实现数据与组织的联接,每个数据除了知道物理上来自于哪个系统哪张表,同时也要梳理清楚哪些数据归哪个部门、哪个人员管理。数据责任到人,清晰界定管理权限和使用权限,根据权限再做数据应用层面的分配,起到安全保障和数据问题可追溯可闭环的作用,让有权限的人自由使用数据,再让使用数据的人反哺数据治理。
3、易用的中台工具:当数据已经具备了业务化的条件,那么数据就可以被前端人员使用了;当数据具备了权限管控,那么数据就可以安全的使用了,但是,使用数据不能是让用数据的人到数据库里面查,而是要根据实际的需求提供自助式的数据应用方式,例如拖拽式的数据分析桌面,自由组合的数据透视图、数据透视表工具,或者是便捷的数据上报、数据下载、数据查询通道等等,便捷的中台使能工具,打通院部、师生使用数据的最后一公里,让数据真正用起来。
上述三个条件要想做到实在不易,但只有解决了上述的条件才能真正打通数据的价值链路,实现数据的有“入”有“出”,实现数据价值的循环自增,形成数据的开放系统。
l 小结
综上所述,数据中台就是一个对抗熵增的技术手段,一切的出发点是实现数据与价值的连接,通目标拉动、场景推动的方式打造数据治理的“内部动能”,通过“数据链”实现数据的价值循环,构建全民参与的数据开放系统。在未来的数据治理发展过程中,一定会围绕数据的使用和自驱力逐步完善细分功能,数据治理的好坏不会以数据量的多少来衡量,真正的目标应该是使用数据的人员有多少、创造的价值的多少,尤其是在没有外力干预下,体系自主创造的价值的多少。
建设有活力的开放系统是我们的共同目标,它不是终点,它只是对抗熵增的起点。