听得话多了,也就会慢慢渗透入脑袋里。
大数据这个概念,近几年一直在被各大新闻平台,及IT行业反复提及。由于它能够解决对海量数据的存储、查询、分析计算等操作,对用户的偏好进行归类分析,通过数据继续计算分析,相应的统计账单等,它的价值也在慢慢体现。
于是软件测行业,也有越来越多的人员,也纷纷了解大数据测试的转行!这里给大家做个分析,一同看看~
首先你转行做大数据测试工程师前,你的准备条件准备好了吗?一下的学习线路,摸摸自己的良心,都会吗?
其次,究竟大数据需要学什么呢?
第一方面:大数据离线分析*
一般处理T+1数据(T是指日、周、月、年),处理历史数据
模块1:Hadoop
包括四大块(common、yarn、MapReduce、HDFS)
主要掌握环境搭建、处理数据的思想
模块2:Hive
大数据数据仓库
通过写SQL对数据进行操作,类似于mysql数据库中的sql
模块3:HBase
基于HDFS的NOSQL数据库
面向列的存储
协作框架:
sqoop(桥梁:HDFS 《==》RDBMS)
flume:收集日志文件中信息
调度框架anzkaban,
了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
扩展前沿框架:kylin、impala、ElasticSearch(ES)
第二方面:大数据离线分析
以spark框架为主
Scala:OOP + FP
sparkCore:类比MapReduce
sparkSQL:类比hive
sparkStreaming:实时数据处理
kafka:消息队列
前沿框架扩展:flink
阿里巴巴 blink
第三方面:大数据机器学习(扩展)
spark MLlib:机器学习库
pyspark编程:Python和spark的结合
推荐系统
python数据分析
Python机器学习
大数据框架安装功能来划分
1、海量数据存储:
HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
2、海量数据分析:
MapReduce、Spark、SQL
最原始的Hadoop框架,科普下:大数据绝大多数框架,都属于Apache顶级项目,可以了解下hadoop和Apache官网
数据存储:HDFS(Hadoop Distributed File System)
数据分析:MapReduce
HDFS:
主节点:NameNode
决定着数据存储到那个DataNode上
从节点:DataNode
存储数据