7.7大数据存储
admin
2023-09-10 19:01:26
0

大数据的含义:

(1)规模性(Volume):指数据量。大数据通常在数十亿个数据记录。

(2)高速性(Velocity):指采集、生成或共享数据的速度。大数据通常实时生成,也可以实时分布,甚至实时分析。

(3)多样性/变异性(Variety/Variability):指采集或交付数据的形式。大数据需要以多种格式进行存储。在数据集内或数据集之间,数据结构通常不一致。

(4)黏性(Viscosity):指数据使用或集成的难度。

(5)可变性(Volatility):指数据变化的频率及数据有效性的持续时间。

(6)真实性(Veracity):指数据的可信度。

利用大数据,需要改变技术和业务流程,以及数据管理的方式。大多数数据仓库都基于关系模型,但大数据却通常不基于关系模型。数据仓库取决于ETL(Extract、Transform、Load)。而大数据解决方案,如数据湖取决于ELT,先加载然后再转换。这意味着数据集成所需的大部分前期工作并不适合大数据。

数据的生成速度加快和规模不断扩大给数据管理带来了挑战。需要采取不同的方法来处理数据管理的关键问题。这不仅涉及数据集成,还包括元数据管理、数据质量评估和数据存储(如现场、数据中心或云端)。

大数据能否提供不同的洞察力取决于组织能否有效管理大数据。在许多方面,由于数据源和数据格式差异很大,因此大数据管理比关系数据管理需要更多的规范。每个V都有可能导致混乱。

尽管与大数据管理相关的原则尚未完全形成,但有一点非常明确:组织应仔细管理与大数据源相关的元数据,以便准确清点数据文件及它们的起源和价值。一些人质疑是否需要管理大数据的质量,但这个问题就反映出他们对质量定义缺乏充分的理解。数据规模庞大,并不表示数据可以满足所有的需求。大数据还代表了新的道德风险和安全风险,这些风险需要通过数据治理来控制。

大数据可应用于一系列活动,包括数据挖掘、机器学习和预测分析。但是要达到这一目标,组织必须有一个出发点和策略。组织的大数据战略需要与其整体业务战略保持一致,并提供支持。具体应评估以下方面:

(1)组织试图解决哪些问题。需要分析的内容:组织可能会决定使用数据来理解业务或业务环境;证明关于新产品价值的想法;探索一个假设;发明一种新的经营方式。建立一定的控制和检查机制,对于评估计划的价值和可行性是非常重要的。

(2)使用或获取哪些数据源。内部资源可能易于使用,但范围或会受限。外部资源可能有用,但不受操作控制(由他人管理,或者不受任何人控制,如社交媒体)。许多供应商都以数据代理的身份出现,我们可以从多种渠道获得同样的数据。如果组织能够将这些渠道 与现有的数据获取方式相结合,也许可以降低总体投资成本。

(3)提供数据的及时性和范围。许多数据可以通过多种方式获取,比如实时抓取某个时间点的快照,甚至可以在集成和汇总后获取。较短的数据延迟是理想的状态,但通常以机器学习能力为代价,因为静态数据的计算算法与流数据的计算算法大相径庭。数据的下游使用需要许多的数据集成。

(4)对其他数据结构的影响和相关性。需要更改其他数据的结构或内容,使其适合与大数据集集成。

(5)对现有数据模型的影响。这包括扩展客户、产品和营销方法的知识。

许多组织都在将大数据集成到其总体数据管理环境中,如图7-3所示。数据从源系统移动到暂存区,并在此被清理或丰富,然后被集成并存储在数据仓库(DW)和/或操作型数据存储(Operational Data Store,ODS)中。从数据仓库中,用户可以通过集市(Mart)或立方体(Cubes)访问数据,并将其用于各种报告。大数据经历的过程与之类似,但有一个明显的区别:大多数数据仓库是在数据放入表之前集成数据,而大数据解决是在集成数据之前先摄取数据。



相关内容