现在关于数字化的各种新名词层出不穷,例如:企业层面的新名词有:数字化转型、互联网经济、数字经济、数字平台;
平台层面的新名词有:物联网、云计算、大数据、5G、人工智能、机器智能、深度学习、知识图谱;
技术层面的新名词有:数据仓库、数据集市、新零售平台、数据湖、数据中台、业务中台、技术中台……总之就是各种概念满天飞,你方唱罢我登场。
一、什么是数据中台
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,继而客户提高服务效率。
用大白话讲,比如你们家有好多的调料油、盐、料酒、生抽、蚝油等等,这些调料就相当于数据。那么你相当于业务部门,然后你又特别喜欢吃糖醋里脊,糖醋鱼、糖醋排骨,总之就都是糖醋味儿的。然后你老妈就相当于IT部门,她觉得每天按比例调制这个糖醋汁很麻烦又浪费时间,而且还有偏差。于是老妈就按照1料酒2酱油3白糖4醋5水的比例,相当于数据算法,调制好了一大桶的糖醋汁,就相当于数据产品。以后每天倒一点糖醋汁,就可以很快做出一盘糖醋菜,就相当于业务应用。那调制这个糖醋汁的过程,就相当于构建了一个数据中台,“糖醋汁就是“数据产品”。
二、什么是数据仓库
数据仓库是一个集中式存储库,用于存储结构化数据(数据库表、Excel 工作表)和半结构化数据(XML 文件、网页),以便进行报告和分析。数据从各种源(如销售点系统、业务应用程序和关系数据库)流入,通常会在到达仓库之前进行清理和标准化。由于数据仓库可以存储大量信息,因此用户可以轻松访问大量历史数据,这些数据可用于数据挖掘、数据可视化和其他形式的商业智能报告。
用大白话讲就是,如果把地里的蔬菜比作数据,那么土地对于蔬菜来说就是数据库。把蔬菜从地理摘下来放在地窖,那么地窖对蔬菜来说就是数据仓库。每天都要摘菜放在地窖里,那么地窖里放的就是一段时间的蔬菜,它可以记录历史的变化。并且一块地里一般只种一种蔬菜,但是一个地窖里放的东西可就多了,土豆、地瓜、胡萝卜、大白菜……什么都可以放地窖里。
所以数据仓库相比较数据库来说,它是不同种类数据的集合,是集成的。数据库相比来说就比较单一。
数据仓库还有一个特性就是数据要分类存放,是要面向主题的。地窖太小了,到了北京的新发地所有的农产品都要分门别类的摆放。像有蔬菜大厅、牛羊肉大厅、果品、粮油、水产、副食、调料等大厅,你想找什么产品到对应的大厅里就好了,不用担心物品多了找不到想要的。这里的大厅就和数据仓库的主题是一个意思。
三、什么是数据湖
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
大白话讲就是,以前数据少的时候人们拿脑子记就可以了,大不了采用结绳记事。后来,为了更有效率的记事和工作,数据库出现了,数据库的核心是满足快速的增删改查,应对联机事务。
日子久了,人们发现库里的数据越来越多了,不光要支持联机业务,还要有分析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合以这种读取大量数据为特征的分析业务。于是人们在现有的数据库基础上,对数据进行加工,这个过程被称为ETL——抽取、清洗、加载、转换。数据库里的原始数据被ETL以后,就被装进了数据仓库。
随着时代的发展,数据的类型越来越多,人们对数据的需求也越来越复杂,企业越来越看重这些大数据的价值,希望把他们存好用好。这些数据五花八门,又多又杂,怎么存呢?
索性挖个大坑吧,这就形成了数据湖的原型,是一种把各类异构数据进行集中存储的架构。用大白话讲数字化!