要了解大数据的本质首先得确定什么是大数据,也就是大数据的定义是什么?而要了解什么是大数据又得从大数据的历史说起。
大数据概念最早的提出者现已不可考。
1980年,未来学家托夫勒在其所著的《第三次浪潮》中就提到“大数据”一词。 2001年麦塔集团分析员道格·萊尼指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),现在这被认为是大数据的三个特性。
2003/2004 Google发表了《MapReduce: Simplified Data Processing on Large Clusters》和《The Google File System》两篇论文,这两篇论文成为了Hadoop的Yarn和HDFS的基础。一直到现在MapReduce仍然是大数据上的计算思想基础。
2006年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。随后围绕着Hadoop平台的大数据组件相继诞生
2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (Computing Community Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。
...
早期大数据是计算机科学研究人员最早发现和提出的概念,那时候计算机发展水平相比于现在低,CPU运算能力,内存大小,磁盘IO和大小,以及网络带宽等水平都比较低。因此他们提出的大数据是:
TB级数据处理就是大数据,然后变成PB级别才是大数据 ——学术界
随着互联网的发展,数据量的增加从TB到PB到EB,到底多大数据量才是大数据呢?因此这种大数据的定义变得模糊起来。
后来随着以Oracle为代表的传统关系型数据库在面对越来越多的数据时所能提供的存储,计算,查询性能的下降,甚至完全不能处理。使其越来越难以满足用户的需求。因此业内对大数据进行了重新的定义:
是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 ——工业界
但是这种定义本身就是不严谨的。因为,互联网是处在告诉发展的一个阶段,新的技术更新很快,现在的新处理模式可能过一段时间就被更新的取代了。因此难以确定什么才是大数据。
然而随着Hadoop的诞生和广泛应用,以及它在大数据量处理上的完美表现。Hadoop成为大数据的代名词,即Hadoop=大数据。Hadoop的数据存储思想和计算思想——分而治之成为大数据的思想。因此重新修正了大数据的概念:
使用分布式(分治)的思想将不同的服务器组合成一个有机的整体以进行数据的读取、写入、存储、管理与处理的技术
——现在
此时Hadoop的核心思想成为大数据的基本定义。
是大量数据的存储?是大量数据的计算?是大量数据的挖掘?还是大数据数据的应用?上述种种其实只是大数据的现象。数据存储是重要组成,数据计算是过程,数据挖掘是一种数据价值发现方法,数据应用是目的。
在谈到大数据本质的时候我们可以先了解一下会计。没错就是经济活动中的会计。会计有两大职能,一个是核算;另一个是监督。而核算和监督都是基于基础货币在企业活动中的变化数据。只不过这些数据是活动过后的结果数据(已经可以通过货币来度量)。因此会计的本质就是管理活动。
而直接面向企业内外部所有数据处理的大数据的本质则是面向过程的企业活动管理。会计是面向结果的,赚了就是赚了,亏了就是亏了。为什么亏?哪一步导致的亏损?哪一个活动环节出的问题?根本原因在哪?哪里需要加强?会计是回答不出来的。而大数据能回答!随着所有活动的信息化,数字化以及数字孪生系统的完善。大数据可以监测企业的所有活动,因此通过大数据很容易洞察问题的症结所在,从而进行有效治理。而大数据+人工智能则可以实现智能问题处理,辅助决策,智能运营等功能实现企业智能化运转。