什么是大数据?大数据是什么?
admin
2023-10-19 21:40:30
0

大数据三字,在当下的生活中无论是技术人员也好,还是普通用户也罢,都或多或少的接触过。

那么到底大数据是什么?跟我们有什么关系?并没有多少相关科普性文章能讲明白说透彻。

而这篇文章,会用最简洁明了的语言,来跟大家讲讲什么是大数据、和我们有什么关系。



“大数据”是一种泛概念,具体含义有两层:大量的数据、处理大量数据的技术。这两种含义其实是相辅相成、一脉而生的,为了便于各位理解,我们分开来讲。

大量的数据:“数据”大家都有所认知,而在数据前冠以“大量”作为修饰,我们第一个要解决的通识问题就是“大量”的范围在哪。

举个栗子,大家经常性的会看到KB、MB、GB、TB这些描述手机内存大小、电脑硬盘大小、音视频文件大小等等的字样,认识归认识,比如“我手机容量是128G的“、”我电脑硬盘1TB的”、“这个ACC无损音乐32MB呢”……可是如何度量,怎样直观的感受到这个数据量的大小呢?



那拿我们看书来说叭,高中人教版语文(必修一)教材书,总字数133000字,如果把这些字全部存到我们电脑上,用系统文本文档存储(txt格式),它占用空间多大呢?

389KB。

如果我们要用正常阅读速读,除去翻书用的时间,要将这本书看完,需要多长时间呢?

以知乎关于此问题最高赞回答的定义标准为准则(42000字/小时)

需要3.17个小时



389KB ——> 3.17小时,这是我们通过计算得出的结论,那为了方便后面计算,我们再规整一下,按每小时来算,看看一个小时我们能阅读多大空间的数据。

122.71KB/小时/正常人。

计算这个目的的意义何在?很简单,直观的感受一下什么叫大数据!

如果你的手机内存是128GB,按1024进制换算后(1024KB = 1MB、1024MB = 1GB),假设你手机内存存满了数据,而你要亲自处理这些数据,抛却吃饭睡觉上厕所和精力不足等客观因素,很多人穷其一生都看不完这些数据,因为你需要124.86年···(计算过程如下,可跳过)

128GB X 1024 = 131072MB ——>
131072MB X 1024 = 134217728KB ——>
34217728KB / 122.71 = 1093779.9小时 ——>
1093779.9小时 / 24 = 45574.2天 ——>
45574.2天 / 365 = 124.86年

是不是感受到了一丝压力?

那这只是我们一个人的手机内存大小,当然如果你非要像ETC一样自动抬杠的跟我讲:我手机怎么可能存储满128G / 我手机是256G / 为什么我要自己处理这么大的数据 ······

好叭,我的目的很简单,就是想让各位看官直观的感受一下人工处理数据的速度和数据到底有多庞大而已,如果你有这方面的问题,大可忽略这些不妨碍阅读的细节,咱们继续往下看。

一般中型的互联网公司,每天处理的数据量都在50-500GB,如果人工去处理那是极其不现实的,比如用咱们普通用户常用到的Excel表格、Word文档、Txt文本文件等,一般性能的计算机去处理这么大的数据,结果只有一个——卡到死机,有兴趣的可以尝试一下,单纯的下载然后打开就可以了,可以检验一下电脑性能O不OK。

下载链接 :https://pan.baidu.com/s/1qnkbvpW4HxqHH1unvUeelQ 提取码:pvwf
下载声明:无毒无公害,可在指导下放心食用。
使用指导:下载后,将你电脑上所有打开的软件都保存应用信息后关闭,然后用相应的软件打开(如后缀为.txt的就用记事本软件,是.doc的就用Word办公软件),如果出现程序卡住无响应,在任务栏右键,选择任务管理器,找到你的无响应软件,右击选择结束进程,OK了。

很多看官会说:那肯定啊,那些公司的服务器肯定比我这小破电脑NB啊,怎么会打不开?

是的,以前公司就是这样处理数据的,但是以前局限于每天处理不到1G-10G的数据量,那用这样的处理方式还可以。后来随着用户的增长及软件反馈信息的增多,每天的信息量越来越大,一般想到的解决办法就是:一台服务器的运算能力不够了买两台嘛,再不够了再买嘛 ······

可是各位并不知道的是,高性能的单组服务器价格是极其昂贵的,随便截张图给大家欣赏一下。



可是哪怕是这样的服务器增容以后,能再延拓容纳的用户数量还是相对比较少的,同样企业里不但有处理数据的服务器,还得有备份服务器来存储数据和应对突发情况,在使用量上,高性能单机器利用率也不算高,万一出现故障维修费用也得不少钱,所以综合来看,这样的企业问题解决方案,性价比很低。

但是人类社会从已经淘汰的1G、2G,到正在使用的3G、4G,再到即将到来的5G时代,数据量的暴增是不可置否的客观事实。很多企业怕自己光是买服务器和维护服务器,就把自己整垮了,所以觉得技术上应该另辟蹊径,找到一种性价比高的策略方案来应对时代潮流,所以,大数据处理技术,诞生了。

上面咱们聊了大数据作为”大量的数据“意义时,具体的含义。

那咱们就来顺藤摸瓜的聊聊什么叫大数据处理技术,简称大数据技术或大数据

无论是创业公司还是上市公司,想要赚钱肯定从两方面着手:开源、节流。

开源属于公司业务层面的事情,而节流则是公司内部的硬件成本、人力成本的控制,所以作为商业活动为导向的公司,定希望自己的成本可以进一步下降,针对“大量的数据”得出的企业窘境,大数据技术的诞生是全球所有互联网公司的一支强心剂,因为它完美实现了“低成本、高性能”的需求,来看看到底是什么玩意叭。

大数据处理技术,是区别于传统数据处理技术(Excel、Txt、Csv ···)的大批量数据处理技术,它基本由两部分组成:分布式硬件集群系统、分布式数据处理框架。



分布式硬件集群系统,就是指我们看得见,摸得着的那些机器。无论是内存、CPU还是交换机、网线等,把这些现实世界物理意义上存在的东西集合在一起,统称为硬件系统。

而为什么要加一个集群呢?单个机器你可以理解为一个人,而集群就是一群人,这群人是一个团队,在明确的法律法规作为规则的前提下有序的处理问题。

什么?又问我为啥要集群?害!你一个人干活终究干不过一群人啊,是不是?

就像咱们之前说过的,一个人不吃不喝不拉不撒要近125年才能处理完128GB的数据,那如果有128个人去处理这同样的数据,处理的速度肯定是坍塌式缩小,人多力量大嘛。

那为什么要加分布式呢?因为整个团体里,张三就是张三,不是李四,虽然他们在共同完成一件事,但是张三可以在家里处理分配给自己的那一块数据,李四可以在公司,如果有沟通需要可以利用互联网进行沟通,完全不会影响嘛,最后大家处理完各自的数据了,把结果通过互联网给团队Leader汇总,就完美完成这样的任务了。



然后再讲讲什么叫分布式数据处理框架

这个就更简单清晰了,刚刚我们说到分布式硬件集群系统像一群人要去完成共同目标的一件事,那处理框架就是教你如何去处理这样的事情,比如有这样一段数据:

“张三是一个24岁的雄性大数据程序猿,喜欢唱歌跳舞,每个月收入23k,师从段海涛,现在在阿里巴巴杭州研发中心上班”

需要将张三的个人信息提取出来,完成以后是这样的:

姓名性别爱好收入关系公司地址职业张三男唱歌跳舞23K老师:段海涛阿里巴巴杭州大数据程序员

相关内容