数据仓库的能力属于高阶数据产品的范畴,无论是TOB、TOC都需要搭建数据仓库,可以说各个有一定体量数据的企业都离不开数据仓库。
为什么需要数据仓库?
数据采集后,我们首先需要分析数据是否可以直接使用?数据量是不是很大?是否需要将数据进行分层?数据质量是否达标?
为什么要看数据是否需要分层呢?
这里我们举个例子:比如某个部分想做一个指标的展示,看一下各个大区的销售金额,而原始数据有 1 亿条数据,如果直接加载速度可能会很慢,这时候是不是需要提升效率呢?于是就需要数据仓库的能力,将数据进行分层。
那么,为什么还要看数据质量呢?
比如原始数据中缺失一些列,或者数据重复,或者数据口径本身就有问题,这就涉及数据质量问题。例如:在同一类商品中,有的商品单位是个,有的商品单位是件,有的商品单位是箱,是不是就得把单位先进行统一,再进行分析。因此在建设数仓过程中需要把数据质量的问题一起解决掉。
我们通过招聘平台JD中可以看到,很多数据产品经理要求有数仓经验,即便你没有经验,把我在课程中讲到的总结为你自己的经验就是你的经验了,要学会包装履历。
本章我继续采用不拖泥带水的风格!数据仓库内容很多,因此我会通过一步步的操作步骤用大厂案例给大家剖析出来,场景带入,足够干,易理解,促沉淀。
本章内容体系包括:
1 走进数据仓库案例说明
2 数仓的分层设计
3 0-1离线数仓订单案例
4 数据开发ETL工具介绍
5 0-1实时数仓订单案例
在第一小节中,我们先认识数仓,有哪些场景下需要用数仓,数据仓库特点,及其常见的一些术语。
我会给大家讲解不同场景下的数据应用分析。
即便是常见的术语,为了加深印象,形成知识沉淀,我也得通过小案例来说明。
第二小节数仓分层中,我会给大家讲解数据仓库自上而下的划分方式与思路,你学习了这个思路以后,你也可以规划出你所谓企业的数仓体系。
例如,这个是X东的数仓案例,学习了以后,你在看你所在企业数仓主题的时候就明白为什么这样划分了。
在数仓的数据分层中,每一层数据的特点,明白了自上而下的数仓体系梳理,也清楚了在落地时候如何做数据分层,就可以落地了,因此接下来我就会给大家讲解数仓的案例了。
通过案例我会拿真实的数据案例给大家一步步展示每一层的数据是什么样的,存储是什么结构。
在实现数仓的过程中,作为数据产品经理需要熟悉ETL工具,可以写SQL,也可以通过这种ETL通过拖拉拽的方式实现。
数据仓库分为离线数仓、实时数仓,在大数据时代,实时数据有很多的场景,因此我会给大家讲解实时数仓背后的逻辑,为了方便知识沉淀,我依旧会用案例进行数据推演。
掌握了本章的内容,关于数仓一些边边角角的内容在实际的场景中查漏补缺就可以了。
数据产品完整内容:
您的支持是我最大的动力,感谢支持!
下一篇:谈谈小红书营销策略和盈利模式