一看就懂!大数据(上篇)
admin
2023-08-18 15:25:00
0

大家好,几个月不见,我想死你们了。

这几个月小驴君并不是闲着偷懒、强行拖更的,而是参加了国网公司的「大数据应用竞赛」的封闭培训,而且努力地通过一轮一轮的淘汰筛选,进入了天津市公司参赛队,在最后国网全国竞赛中考到了30名左右(貌似)。




在这个艰苦的过程中,真的是学到了超多的东西,对机器学习、数据科学、大数据等都有了全新的认知。然后因为各种忙碌又拖了好几个星期才写出来这篇文章。

回到正题。

接下来的几期,小驴君将与大家分享《三型两网知识读本》指出的,泛在电力物联网建设中的重要角色:“大云物移智链”。

首先从大数据开始。这是一个我们经常听说,但又稀里糊涂的概念。希望本文可以将这个概念简单地讲明白。

但因为大数据是个非常大的话题,写少了怕讲不清楚,写多了又要花很多时间(显得我又在拖更),所以本话题将拆分为多篇发布。




想要谈论「大数据」,首先还是要从「数据」说起。

数据,是表达事物的原始素材(意思是未经加工),我们可以从数据中提取「信息」。举例来说,描述关羽身长九尺,这个九尺就是数据,但如果说他比多数人都高,这个就是对数据进行了处理(比如统计、排序等),那么这个就不算是数据了,而是从数据中所获得的信息。



大数据(big data),简单来说是一种数据集合,但其数据量大到不能用传统方式存储和处理,而且还具备以下方面的特点:



让我们继续以身高测量为例。

你可能平常在门板上通过划线的方式记录了自己多年来身高的变化,这个数据量确实比较小,也就几个到十几个,显然是小数据。

然后,你通过每天测量一次身高,得到了自己二十年来的每日身高数据,七千三百多个数据够可以了吧,但这些还不算是大数据,毕竟存为纯文本的话也就几MB大小。

好吧,你一下子成了超有号召力的大红人,可以号召全国的男女老幼每天测量一次身高而且数据都汇总,这下子得到的数据,每天都有十几亿个,就算用纯文本记录也相当于每天几个GB的数据,这可相当惊人,算是大数据了吗?嗯,有点这个意思了。



数据量大,这就是大数据的第一个特点

要有多大?应该是以GB、TB(等于1024GB),甚至PB(等于1024TB)为单位,这样的数量级在大数据中很常见。以国网公司为例,各类终端采集数据的日增量就超过60TB。别说处理,只看存储都相当困难啊,至少我的电脑肯定是存不下这些数据的了。

针对这个问题,有些大神提出了分布式存储的思路,典型解决方案是HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)。

简单来说,HDFS由很多的小电脑(或类似设备)构成,将要存储的数据被拆分为64MB或128MB的小块,每个小块存储3份在不同的地方,一个大文件就分散到整个小电脑群中了,这种存储任务不但对单台电脑来说压力不大,而且还具备了一定的备份容错能力。相应地,读取的时候也是从很多小电脑中进行读取,可以通过数据小块的整合还原出之前的完整数据(备注:这段仅供科普,上述数值在使用中都是可以自定义的)。



我们将镜头切换回来。你作为超级大红人收集全国身高数据的时候,总有人用不规范描述(比如不写1.80m,而是写180cm,或者中文的一米八,一百八十厘米等),或者发的是万恶的语音,甚至拍照片、录小视频等。

这下子可好,本来简简单单的一个身高数据,偏偏什么形式都有了,这么乱,老夫生气了!你一怒之下准备撂挑子不干了。



等下,回来回来,别着急啊,这正是大数据的第二个特点:数据类型多

不要指望大数据还能有小数据那样规范的结构,绝大部分数据本来就是非结构化数据,可能是文本,可能是照片,可能是数字,可能是视频,可能是音频,甚至文本也不保证一定是什么结构保存下来的。想要搞大数据,就免不了收集各种各样的信息,从而也经常要面对这样的问题。

传统的数据库通常是「结构化」的,就像Excel文件每一列是什么都固定好那样,以关系型数据库为重要典型。而大数据,拥有越来越多的非标准结构数据(称为半结构化、非结构化数据,就像无法用Excel的列限制数据格式那样统一规范),而且需要对各种数据进行挖掘分析比对等。

用于这方面处理的NoSQL等也在快速发展,并在分析方面也提供了越来越多的工具和方法。




鲁迅说过,风雨中,这点痛算什么。你作为红人,擦干泪,决定面对这些数据,坚定地解决各种计算难题。

但突然发现要算出个什么结果可能得处理个十年八年的。这可不行!别说十年八年,就算晚一会,这些数据也将被新来的数据继续填充,那可就没完了。

这就是大数据的第三个特点:处理速度要求高。虽然数据这么多,但是处理依旧要达到很高的速度,比如分钟级、秒级之类的。传说中有个「一秒定律」,意思是很多场景下都要在秒级的时间尺度上解决计算问题,否则就会失去价值,就是这么个道理。

像百度、淘宝等可以在拥有超大量数据的基础上,对数据请求快速响应,这都是利用了很先进的大数据处理技术。这方面的典型处理方式是「分布式计算」。





以我们熟悉的手机为例,说手机的CPU多核的,意思是可以同时进行多项计算(称之为并行计算),数量与CPU的核心数直接相关。分布式计算的思路与之相似,还回到前面提到的小电脑群中,让部分小电脑计算自己的一部分数据,并用某种方法将结果汇总,用这样的思路,形成超大规模并行计算,就能在很短时间内获得大量静态数据的分析结果了。还有用于解决动态实时数据的流计算等,可以达到秒级响应,也都是现在很火的应用热点。

快速的大数据计算一直是研究的重点攻关方向之一,对具体原理,限于轻科普定位不再展开。




此刻的你,终于开始对这件事到底有没有价值产生了怀疑。你在想自己凭借人格魅力收集了这么多的数据,但是这些数据都有价值吗?而且这么多的数据如果只计算平均身高、身高变化等是不是价值太低了?





恭喜,你的感觉是正确的。大数据价值高,但价值密度很低。需要相当多的数据才能产生特定的价值,平均到每一个数据单位上那真的是价值密度微乎其微了。

但是反过来说,有些价值只能在数据量超级大的情况下才能被发现,比如我们对全国身高的记录,如果没有这样的大数据,我们怎样获取各地区的身高差异?怎样获取不同年龄的长大特性?怎样发现哪些人可以推荐增高?等等。越用心去分析,越能发现小数据里面难以挖掘的价值。

根据朝乐门老师《数据科学理论与实践》的说法,小数据到大数据的过程中出现了「涌现」现象,指的是系统通过量变的积累,实现了质变,这是大数据的本质特征。

举个例子,在价值方面,小数据可能没有什么价值,但累积到大数据可能就拥有了惊人的价值;同样,小数据可能表现不出什么隐私敏感数据,但某些大数据可能严重威胁个人隐私;还有小数据可能缺失冗余一塌糊涂,但大数据可能就能保持可靠的质量,等等。




所以,大数据是一种在价值高和价值密度低之间纠结的别扭的存在。至于怎样找到这些价值?那就是数据分析和数据挖掘的领域了。

以上4点,是大数据非常典型的特点,也被总结为大数据的4V,分别是:数量大,速度快,数据种类多,价值密度低(当然最好再加一个「涌现」)

当然,关于大数据特性的说法还有很多种,比如真实性、安全性等等。但本文上面的4V已经相对经典而且有用,这里就不再对其他说法一一列举了。



大数据的(上)篇就写到这里啦,快来评论区交流~!

下一篇会从实际应用的领域,讨论大数据的意义和在泛在电力物联网中的作用等方面的内容,欢迎继续关注。

参考文献:

【1】朝乐门《数据科学理论与实践》

【2】寇伟主编《三型两网知识读本》

【3】维克托·迈尔-舍恩伯格 肯尼思·库克耶《大数据时代》

相关内容