谢邀~
云计算需要大数据,大数据更离不开云计算,
如果我们把大数据想象成水,那么云计算则像是承载这些水的一个容器。
不过,理清大数据和云计算关系之前,我们首先需要了解什么是大数据,什么又是云计算?
大数据
简单而言何为大数据?
虽然很多人将其定义为“大数据就是大规模的数据”。
但是,这个说法并不准确!“大规模”只是指数据的量而言。
数据量大,并不代表着数据一定有可以被深度学习算法利用的价值。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
例如:地球绕太阳运转的过程中,每一秒钟记录一次地球相对太阳的运动速度、位置,可以得到大量数据。可如果只有这样的数据,其实并没有太多可以挖掘的价值!
大数据这里我们参阅马丁·希尔伯特的总结,今天我们常说的大数据其实是在2000年后,因为信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据:
信息交换
据估算,从1986年到2007年这20年间,地球上每天可以通过既有信息通道交换的信息数量增长了约217倍,这些信息的数字化程度,则从1986年的约20%增长到2007年的约99.9%。在数字化信息爆炸式增长的过程里,每个参与信息交换的节点都可以在短时间内接收并存储大量数据。
信息存储
全球信息存储能力大约每3年翻一番。从1986年到2007年这20年间,全球信息存储能力增加了约120倍,所存储信息的数字化程度也从1986年的约1%增长到2007年的约94%。1986年时,即便用上我们所有的信息载体、存储手段,我们也不过能存储全世界所交换信息的大约1%,而2007年这个数字已经增长到大约16%。信息存储能力的增加为我们利用大数据提供了近乎无限的想象空间。
信息处理
有了海量的信息获取能力和信息存储能力,我们也必须有对这些信息进行整理、加工和分析的能力。谷歌、Facebook等公司在数据量逐渐增大的同时,也相应建立了灵活、强大的分布式数据处理集群。
大数据在应用层面:大数据往往可以取代传统意义上的抽样调查、大数据都可以实时获取、大数据往往混合了来自多个数据源的多维度信息、大数据的价值在于数据分析以及分析基础上的数据挖掘和智能决策。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
云计算
云计算是将我们传统的IT工作转为以网络为依托的云平台运行,关于云计算的定义也有不下100种解释,现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
大数据 & 云计算
云计算需要大数据,大数据更离不开云计算!
正如前面知友所言,技术层面上来看大数据与云计算的关系就像硬币的正反面一样密不可分。
大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
而云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过Google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
“如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等”也正是大数据时代数据的爆发式增长所带来的新的研究课题。
通俗点说大数据和云计算之间的关系就像容器和水的关系,云计算就像一个容器,而大数据则正是存放在这个容器中的水,大数据要依靠云计算技术来进行存储和计算。