大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据顾名思义就是大量的数据,一般这些数据都是PB级以上。这些数据的特点是种类多(有视频啊,图片啊,文字啊,语音啊等),数据量大(PB级以上,1EB=1024PB,1PB=1024T,1T=1024G),需要快速处理(后面会介绍分布式处理技术),有价值(没有价值的事没人会干)。
Volume(大量)——数据的大小决定所考虑的数据的价值和潜在的信息;
Velocity(高速)——指获得数据的速度;
Variety(多样)——指数据类型的多样性;
Value(价值)——合理运用大数据,以低成本创造高价值;
Veracity(真实性)——数据的质量;
以前是PC端(电脑)时代,上网的还不是很多,信息也没现在这么爆炸,所以还没这么多数据量。记得从我上高中的时候,也就是2010年,安卓机才开始热卖,也就是从那一年起,移动互联网高速发展,什么微信啊,QQ啊,你一言我一语,数据就产生了。然后现在最火的是短视频,直播,还有今日头条,公众号什么的。短视频我观察了下,快手是2011年成立,可以说跑在了智能机最前线,但是那个时候还是3G时代,4G是在2012年开始建设,2013年建设完毕。抖音是在2016年出来,由于推广力度很大,当时我看地铁里面就很多他们的广告,所以很多人都在用,说了这么多,短视频的特点是人人都可以上传视频,属于自媒体,这样就产生了大量的视频数据。今日头条同理也是人人可以发布内容。直播观众量大,有的大主播开播都几千万人在看,这也是很大一部分数据。很多公众号几十万粉丝,这个也得处理好。还有自从有了智能机,人们拍照也方便了,随手拍了发布到网上,这个导致了图片数据暴增。
大数据从20世纪90年代开始萌芽,经历了萌芽,突破,成熟。知道2013年开始像商业,科技,医疗,农业,政府,教育,经济,交通应用。国家从2016年才正式确立大数据的发展,也就是这一年大学才开设大数据课程。
笼统的话,上面已经介绍了,什么医疗,交通,农业啊。我这里只说下具体的。
大数据推荐:(比如我们平时浏览今日头条,UC浏览器会有一个推荐专栏,里面看到的都是我们平时搜索查看的内容,这个就是根据用户的操作行为进行推荐的)
大数据分析:(举个例子:之前去的牙齿矫正科,进行口扫时,会自动根据你的牙齿生成矫正方案,那些方案是根据之前的很多病例的相似度进行分析匹配,然后得出的。)
智慧交通:(这个没接触过)
大数据存储:(这个就是如何存数据,后面学了就知道了,上面说的是根据数据做的一些事情。)
大数据分成了很多派系,其中最著名的是Apache Hadoop,Clouera CDH和 Hortonworks 派系。Apache属于原生的派系,由于它是开源的,很多人开发,导致版本管理很混乱,BUG也挺多的。然后就有了专门的Hadoop提供商Clouera CDH和 Hortonworks。Clodera是老牌的提供商,提供定制化和培训服务。Hortonworks是后来新兴的提供商,提供免费的产品,但是培训是要钱的。Apache Hadoop一般适用于学习的时候用,因为毕竟免费不需要看版权吧。到了企业,Clodera CDH相对多一些。接下来就介绍下Apache Hadoop和Clodera CDH生态系统。
Apache Hadoop生态图
从上图可以看到用到的技术有:
Cloudera CDH生态图
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:1.对大量消费者提供产品或服务的企业可以利用大数据进行精准营2.做小而美模式的中小微企业可以利用大数据做服务转型3.面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
大数据未来发展
由于现今数据量级猛增以及人们对数据中潜在信息的重视,数据挖掘的研究会受到越来越多的关注,在最近几年更是有了长足的进步,如以下几个方面:
(1)对于大规模数据的存储﹑管理和使用,包括在分布式环境建立数据仓库的方式方法。
(2)知识发现语言的形式化描述和算法,即研究专门用于知识发现的数据挖掘语言。
(3)数据挖掘过程中的可视化方法,使知识发现的过程中能够更容易被用户理解,也便于在知识发现的过程中进行人机交互。
(4)生物信息或基因的数据挖掘。
(5)Web数据挖掘的各个方面。
(6)因为5G技术的全面应用,会促进物联网的进一步发展,在万物互联的未来,各种设备产生的非结构化数据将会成为重点研究的对象。
这些数据—原始石油,需要提炼出我们需要的汽油﹑柴油等。如何发现这些数据背后的知识,是我们每个人都想知道的,它就像一座金矿,而我们就是拿着各种工具的矿工,迫不及待的想去发现金子。
大数据与交通
大数据的本质就是一大堆结构化的和非结构化的数据。因为数据量太大,你没办法使用,你需要从中抓取出有价值的内容或你想要的数据,这就是大数据应用。
从技术层面说,大数据和以前的数据时代的最大差异在于:以前是数据找应用、算法的过程,偏重于用抽样推测全局,从抽样数据中分析,没有采集到的样本所对应的相关规律。
而大数据时代的重要技术特征之一,是应用、算法去找数据的过程,因为数据规模变成了技术上最大的挑战,我们更关注每一个个体的微观表现。
大数据应用经历近十年的发展,目前的状况怎么样呢?
第一,很多国家(包括我国)已经上升到国策化,已成为国家战略。
第二,国内与国外差距已经不大。
第三,有赖于机器学习和人工智能的底层支撑,大数据和机器学习已经是一对孪生兄弟。AI为大数据应用提供高效的手段,大数据为AI提供了海量的学习素材。
第四,大数据应用的标准化问题已经迫在眉睫,专业化势在必行,工具化正在普及。
大数据究竟能做什么事呢?
你在京东买了奶瓶又搜索过奶粉,那京东的大数据就预测到你可能有小宝宝了,接下来一大堆和婴儿有关的东西都推荐给你。你可能说这就是大数据啊,也太简单了。其实如果京东仅服务你一个人,那简单,但是京东对几亿用户都能做这个推广,就不简单。
有人说,预测从古代就做了,大数据做预测的核心是全样本,多个维度的全样本,交叉确认,人会说谎,在社交场合会隐藏部分内心,但这部分内心在日积月累的互联网上总有丝竹马迹会留下来,所以,越来越多的数据模型和数据会给出无限接近感知的结果。也就是可以
大数据可以让计算机具有学习能力,机器学习就是设计一个一些让计算机可以自动学习的算法,人工智能的核心是什么?归根到底是“计算机用大数据在代替人脑来思考;计算机可能比人脑思考的更全面和迅速。”
对企业经营来讲,具体可以解决以下问题:
事实上大数据在交通中的应用已经给行业带来巨大的变革,主要体现在五个方面。
第一,为用户提供服务内容越来越精准。有赖于基于大数据的交通路网动态分析,为用户提供了出行的实时方案选择。
第二,交通通行效率越来越高。这也有赖于各种各样的互联网感知器,对复杂天气、事故、各种突发事件的实时分析,使得交通管理部门掌握了更多的交通状况,及时做出反应。
第三,现场人工执法越来越少。有赖于基于大数据的行为分析,交通执法的事情都变成一个事后的非现场的执法。
第四,交通服务自动化程度越来越高。移动支付和各种自动化设备的应用,自助服务和无感服务普遍应用。
第五,交通主管部门的决策越来越科学。政府对重大政策的制定和推出越来越依赖于对交通行为的分析,最典型的就是广州限外地牌照这件事情,专业机构通过数据分析发现广州道路拥堵的症结。
大数据分析方法
各行各业都讲大数据,各级政府和各个行业都推出大数据战略。那么如何开展大数据应用呢?如果我们把大数据比作含有金属的矿石。大数据应用有两个方向:一个是如何把金矿石找到,集中,存储;另一个是如何从矿石中提取金属。我们通常也把第二件事情叫做大数据分析(挖掘),事实上大数据分析是一个很专业的事情,他的专业性和计算机软件类似。计算机是一个工具,计算机很重要,各个行业都用计算机,但是,不是各个行业都要自己开发计算机系统和软件。归根到底大数据就是含有金属的矿石,矿石很重要,各行各业都有大量矿石,但是,不是各个行业都要自己造工具和设备来冶炼提取金属。我们公司有团队做大数据分析服务,所以今天在这里就大数据分析发发进行交流。大数据分析是需要场景设定的,由要解决的问题驱动,离开用户需求和应用场景谈大数据分析,是忽悠是空谈。大数据是因为对它的分析使用,找到其中蕴藏的金子或其他金属,才产生和体现它的价值,而不是因为其有多少多少数据和用到了NB的技术和算法才体现了它的价值。所以大数据应用的本质就是从一大堆矿石中用各种设备和工艺,不断地去实验,找到我们没有预料到的稀有金属,也就是大数据应用的核心是大数据分析。我司是专门做大数据分析服务的,所以在这里和大家分享一下大数据分析方面的体会。大数据分析就是一个选矿的过程,有了大数据就是有了一大堆矿石,矿石中除了含有金,还有没有银?用什么样的工具,什么样的方法,去提炼金或其他未知金属,就是一个大数据分析项目要回答的这问题。所以大数据分析项目具有探索性,并不是每一个项目都是成功的,也并不是每一个项目都能找到新的稀有金属,一个成功的大数据项目需要多个角色参与:
业务用户:该角色对业务领域非常了解,是分析结果的受益人。
项目发起人:负责项目的发起工作,通常我们称的业主的角色,提供项目资金。
项目经理:负责项目进度质量,确保项目达到预期目标。
商业智能分析师:提供业务领域的专业知识和技能。
数据库管理员(DBA):负责提供和配置数据库环境,支持团队的分析需求。
数据工程师:负责执行具体的数据提取工作和数据操作。确保以正确的方式生成用作分析的数据。
数据科学家:负责数据建模,选择有效的分析工具,设计和执行分析方案。确保整体分析目标实现。
从方法论角度,一个大数据分析项目是可以遵循一些已有的模型的,这些模型在过去统计分析时代就已经诞生了。下面我们以EMC公司的大数据分析模型来了解一下大数据分析项目的六个阶段:
EMC模型有以下六个阶段:
发现(目标定义):把业务问题转化为分析目标,制定初始假设。
数据准备:准备好分析沙盘,对分析沙盘中的数据执行ETL或ELT,转化成使用和分析的格式,逐步治理数据
规划模型:了解数据之间的关系,确定模型的关键变量,和合适的分析模型
模型建立:创建测试数据集,学习数据集,和生产数据集。运行模型,修正参数,测试模型的可用性,和对运行环境的要求
沟通结果:评判是否达到第一阶段的目标,是否满足业主的要求,是否可以上线运行。
实施:在生产环境部署和实施一个试点项目,应用项目模型。
高速公路大数据应用案例
第一个案例:广东省高速公路省监控大数据综合分析展示。项目目标是对政府和营运管理单位关心的主要指标数据进行分析展示,让管理者及时、直观地了解高速公路的运营管理情况。
这个项目利用了省级联网收费运营管理平台和省级监控平台上的全省的高速公路收费数据和监控数据。
这是我们的部分分析成果:全省交通事件、交通事故的数据展示,包括最近30天交通事件类型组成、最近30天交通事件/交通事故情况、环比、最近90天发生交通事故的前十区间。
第二个案例:深汕西保畅通高峰车流预警预测系统。
广东省深汕西高速公路做的大数据分析项目,目标是:预测路上的关键断面预测30分钟后的车流量。
利用的数据:实时采集路面上和服务区进出口的高清卡口截面车流量采用的模型是时间序列ARIMA 模型,车流量超过设定阀值的,进行预警。
通过这个预测,可以让运营单位提前做好高峰车流的保畅通措施,提升交通服务质量。
第三个案例:广东省高速公路货运情况的大数据分析项目。
业主是:广东省大数据局;
目标是:预测广东省经济景气情况;
利用的数据是:广东高速公路实现了全计重收费和全国ETC联网,在高速公路出口可以较为准确采集到货车载重量数据。
模型是:构建了高速公路运输景气指数(ETBI)。
高速公路大数据应用展望
收费业务数据有DB44为标准,但是监控、路政、养护数据是没有行业标准或地方标准的,收费、监控、路政、养护等各个不同业务域的数据和数据之间要想对话,那必须有一个标准,遵循了这个标准,不同主体共享出来的数据才可以进行融合。
文献来源:中国知网
下一篇:大数据与数据科学课程体系