作者:IC智库
整个互联网正在由IT时代到DT时代演进,科学技术正帮助人们敲开大数据世界的大门。虽然大数据的潮流正在不断推进改变我们的生活,但你真正了解大数据吗?
今天先让我们一起走进大数据的发展进程,了解大数据的前世今生!
一.大数据的前世今生
在人类进化的几万年间,数据一直是人类生活必不可缺的一部分。我们作为默认的数据处理器,从古至今一直都在收集我们周围的信息从而让我们的生活变得更好。
人类最早依靠嘴来传递信息,随着智力的不断进步发展,远古人开始记录他们的生活信息,最早的保存记录信息的例子是35000年前的石洞壁画。这是狩猎时代,所以壁画上通常刻有捕杀动物的种类和狩猎武器的相关信息。
随之人类发展拥有更加先进的武器和生存技能,人类进入了信息收集的又一个里程碑,到了公元前3000多年,人们不再仅仅只收集记录关于生存的信息,世界大陆各地开始出现不同的文明。人类变得更加善于表达自己的想法,书面表达文字也更加的先进。
随着历史的推进,到了公元前300年,以亚历山大图书馆为例,人们开始重视知识,据估计在图书馆被毁前,大约有存书一百万本,内容包括数学、地理、生物等也记录了很多历史上伟大的人类思想。从这些记录中的得出了如何用数学计算地球的质量,这个公式一直沿用至今。这个例子告诉我们积累信息及如何解读信息对于我们生活和能力增长的重要性。
还有许多其他的例子表明了数据记录对我们了解世界的重要性:
天文数据集的成功始于16世纪,哥白尼、伽利略、开普勒这些伟大的先驱,他们利用希腊科学家曾经记录的有关天体运动的数据,并且记录星球接下来很多年的轨迹,从而得出不是其他行星绕着地球转,而是地球和其他行星绕着太阳转的结论。
17世纪中期,显微镜让我们了解到了不同的世界,通过显微镜,我们观察到了从宏观到细胞层次的生物世界,如果没有显微镜数据集,我们不可能有现在的生物医药方面的进步。
20世纪,人类走入量子的世界,出现了像爱因斯坦、波尔这些科学家,为现代科学奠基。因为有了这些,我们现在可以制造更小的晶体管芯片。
这些数据集只是近2000年来数据集的沧海一粟。
· 大数据的今生
20世纪末我们进入了一个数据变革的信息时代,数据增长越来越快。1986年,数据总量为2.6EB。1993年,在网络诞生的三年后,数据扩大了六倍,增长到15.8EB。随着搜索引擎的发明,网络上的信息越来越多,2000年网络1.0成为主流,数据总量达到了55EB。又过了7年---2007年,数据量又一次增长了六倍,数据总量达到了300EB,人们的所思所想逐渐数字化。
2007年传感器开始流行,大数据时代进入了一个转折点,网络2.0成为了主流。最典型的是手机的普及让我们的生活数字化。到2013年,数据以十五倍的速度增长到4.5ZB。手机成为了大数据时代的催化剂。到2020年,保守估计数据总量达到44ZB,2025年将达200ZB。
另一个有趣的趋势是每日的数据增长从2002年的0.25EB、2013年的3EB、2018年的5EB到2025年大约每天增长120EB。在2013年的所有数据中2010年至2013年产生的数据占了90%,而到2020年,2013年前的所有数据量仅为2020年一年的数据。
从以上的数字可以看出,我们正处于一个信息爆炸的世界,通过网络产生的数据将会以指数化的形式不断增加下去,所以如何处理这些信息成为了科学家们必须攻克的难题,那么我们应该如何利用和处理这些数据呢?让我们一起期待之后的分享!
从上一期的分享中,我们了解到数据的发展史,感兴趣的小伙伴可以点击以下视频:
那么究竟什么是大数据呢?
二.什么是大数据?
大数据顾名思义就是数量庞大而复杂的数据集。利用传统的数据处理产品无法在合理的时间内捕获、管理和处理这些数据集。
大数据通常以三个V来表征:
数据量的大小决定了所考虑的数据的价值和潜在的信息,上一期的分享中我们了解到数据量对时间的大致变化。
数据集将具有多样性,可以将数据集分为结构化、非结构化和半结构化数据。
结构化数据是我们已经优化处理过的数据,并将它们整理成表格放到数据库中,从而方便人们理解使用。但是网络上的数据大部分为非结构化的,它们在不断变化、扩展、演变。大部分非结构化数据对于我们来说是静态噪声,但当我们要研究它们是,它们就会处于变化之中。
大数据真正的魅力在于通过筛选分析结构数据和非结构数据集得到合适的信息并寻求它们之间的联系,最终得出相关结论。以天文研究为例,行星的运动轨迹对于它自身来说是没有用的,但是结合彼此的信息得出的结论却是有用的。
如何处理数据?
一般处理数据分为以下几步:
如何验证结论和得出关联模型是一个难题。智能设备的不断增加,智能城市让我们的生活变得数字化。越来越多的信息汇聚在一起,分析数据的真正目的是希望可以得到一些普遍模式。所以问题不在于数据的产生,而在于如何处理多样的数据。这样就出现了很多工具。
以亚马逊平台为例,平台可以建立一个包含用户性别、用户购买产品信息、产品评分的数据集,通过分析数据集可以得到用户的偏好。而利用长期积累的数据又可以得到类似按季节变化的消费趋势这样的模型。以上均为处理结构化数据的例子,而现实生活远非如此。
现在生活中的许多设备都是多种传感器相互配合工作,会产生很多模棱两可的数据集,这样寻找其中的关联性就变得很难。而机器学习和数据分析科学家的出现为我们带来一丝曙光,那么如何处理这些非结构化数据呢?我们下期再见!
前两期的视频里,我们一起了解了数据的增长速度和大数据的基本概念,感兴趣的小伙伴可以点击以下视频:
随着传感器不断的产生数据,非结构化数据积累越来越多,处理这些数据成为了我们面临的一大问题。新出现的一个职业----数据分析工程师就可以帮助我们将非结构化数据结构化,整理成有用的格式。
数据分析这个领域虽然出现时间很短,发展却很迅速。2013年网络上的有用性分析数据占比为22%,到2020这个比例将会增长到37%。这表明虽然网上信息大多为无用信息,但是数据分析师的出现将会改变这一现状。
现在数据分析师关注的焦点在Linked Data(关联数据),这是信息革命的新焦点,对于网络3.0以及紧随而来的网络4.0的基础工作至关重要。所以什么是关联数据呢?
三.关联数据
关联数据是组织数据的一种方式,通过像目前网络上文档共享的方式那样共享数据,可以使用户在基于关联数据规则的数据网络上创建混搭应用,解决数据孤立和囤积的问题。
假设你在网上存储了一份excel文件,如果只是阅读这份文件,那很简单。但由于这份文件背后的信息已经被锁,所以公众无法取得。如果修改文件里的一处信息,那么之前位置的和与它相关的文件就会变得没有用处,那么就会囤积许多无用的数据。
关联数据就像一把钥匙,打开更深的层次,不再仅仅是展示数据,而是通过可链接的URI方式来发布、分享、连接Web中各类资源,从而解决数据囤积问题。
我们以杂志上发表的农业信息为例更深入理解一下关联数据。
假如杂志上有一篇利用近两年的大气环境分析气候与西红柿产量关系的论文,这对农民如何获得更多西红柿产量非常有用。在没有关联数据的情况下,随着气候数据的不断更新,就会发表一篇又一篇的新论文,数据将会囤积。
有了关联数据,通过共享数据,论文和结论就可以随着更新的数据而更新。
关联数据的出现将让世界紧密地联系在一起。谷歌搜索功能就是它的一个实际应用,当我们搜索一个电影的评价时,谷歌将会从很多相关网站上提取信息。把关联数据应用到环境监控、交通情况和医药研究中,将会大大提高我们的生活质量。
网络上的数据储存在被称为电子仓库的地方,随着关联数据的相关性越来越强,这些数据将不会再彼此分离,而会会被共享联系在一起,这样就可以得到更加有用的关联性结论。
关联数据从2006年开始起步增长,2007年达到30,2011年达到300,到2018年达到1150,预计到2020年将达到5000/2025年达到25000!呈指数化增长。
我们关注大数据不仅仅是关注数据增长的速度,更要求分析数据的速度。使用关联数据将会加快分析数据的速度,给快节奏的生活带来许多便利。
我们可以发现大数据与我们的生活息息相关,但是大数据所涉及的科学技术,似乎又离我们遥不可及。通过这几期的视频分享,大家是不是对大数据有所了解了呢?希望本系列视频可以对大家有所帮助!
#想学习更多前沿技术,欢迎下载IC智库APP#
#IC从业者自己的知识分享平台|公众号:ICzhiku#
上一篇:大数据真的很会骗人