很多人都知道大数据,从字面上来理解,它就是很大的数据。
但到底大数据有多大,似乎很少有人能够说得清楚。
如果仅仅从数据的大小来看,似乎到了TB级别,就可以称之为大数据了,所以如果仅仅用数据的大小来定义大数据,下面这个来自MBA智库百科的定义就不错:
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、使用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
但仅仅从数据的大小,就能够说明大数据了吗?
答案当然是否定的,如果大数据能够如此简单的就被定义了,也就不会有这么多复杂难懂的大数据技术了,也就不会有这么多研究机构,企业或者高校去研究它了,也就不会有大数据这一行业了。
拿闻西所在的安防行业来说,超过TB的视频数据实在是太常见了,随随便便拿一个城市的一个片区来说,每天都在产生海量的数据,速度惊人,这说明,单单一个数据大小已经无法准确描述大数据的“大”了,还要从其他维度来进行描述。
正因为如此,在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。
于是高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。
因此,按照3V的方式,大数据的定义如下:
大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。
按照3V的方式,我们将可以至少从三个维度来描述,大数据究竟有多大了:
1)数据大小
一般我们可以用GB, TB, PB等单位来描述数据的大小,当前能够称得上是大数据的至少也得是TB级别的数据了;
2)数据产生速度
数据量大,不代表就能称之为大数据,如果一个TB的数据是用5年的时间产生,那么这个数据还不一定能够够资格称之为大数据,现在真正意义上的大数据,产生数据的速度都非常的快,比如安防行业的视频数据,腾讯公司的微信所产生的数据,每天都是以惊人的速度不断的生成。
3)数据的多样性
如果你的数据全部都是比较单一的数据,比如全部都是电话号码,那么即使数据量很大,产生速度很快,也不一定能够说它就是大数据。
真正的大数据,都是复杂多样的,比如微信的聊天数据,有文字,语音,图片,视频等各种信息。
从经济学的角度来说,如果没有需求,就不存在所谓的价值,如果干净的水能够唾手可得,直接饮用,那么净水厂就没有存在的必要,水过滤这个行业也就失去了其存在的价值。
大数据行业也是如此,如果所有的数据虽然都很大,且每天产生的速度也很快,但所有的数据都整洁有序,单一,那么就很容易能够从中得到几乎所有维度的信息。
但问题就在于,大数据往往都是一堆杂乱无章的数据,需要我们花费时间,精力,资源等去整理,然后去分析它,找出数据内部,数据与数据之间的各种隐藏起来的关系,从而获得更为重要的有价值的信息。
因此,说起来,大数据3V里面的第三个V,数据的多样性,可能是最能够说明大数据“大”的。
所以,如果有人问起你,什么是大数据?到底什么样的数据才能称之为大?
你不妨拿出大数据的3V来给他解释解释,恐怕他/她一定会很服你哦!
================================
欢迎关注我的公众号:wenxi_tech(或公众号搜索“闻西说科技”)
也可前往闻西说科技个人博客:http://www.techeasygo.com/archives/1123
本文同步更新于“闻西说科技"公众号及知乎专栏