大数据转型
admin
2023-09-15 08:04:12
0

听得话多了,也就会慢慢渗透入脑袋里。

大数据这个概念,近几年一直在被各大新闻平台,及IT行业反复提及。由于它能够解决对海量数据的存储、查询、分析计算等操作,对用户的偏好进行归类分析,通过数据继续计算分析,相应的统计账单等,它的价值也在慢慢体现。

于是软件测行业,也有越来越多的人员,也纷纷了解大数据测试的转行!这里给大家做个分析,一同看看~

首先你转行做大数据测试工程师前,你的准备条件准备好了吗?一下的学习线路,摸摸自己的良心,都会吗?

其次,究竟大数据需要学什么呢?

第一方面:大数据离线分析*

  一般处理T+1数据(T是指日、周、月、年),处理历史数据

  模块1:Hadoop

  包括四大块(common、yarn、MapReduce、HDFS)

  主要掌握环境搭建、处理数据的思想

  模块2:Hive

  大数据数据仓库

  通过写SQL对数据进行操作,类似于mysql数据库中的sql

  模块3:HBase

  基于HDFS的NOSQL数据库

  面向列的存储

  协作框架:

sqoop(桥梁:HDFS 《==》RDBMS)

flume:收集日志文件中信息

  调度框架anzkaban,

  了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)

  扩展前沿框架:kylin、impala、ElasticSearch(ES)

 第二方面:大数据离线分析

  以spark框架为主

Scala:OOP + FP

sparkCore:类比MapReduce

sparkSQL:类比hive

sparkStreaming:实时数据处理

kafka:消息队列

  前沿框架扩展:flink

阿里巴巴 blink

 第三方面:大数据机器学习(扩展)

spark MLlib:机器学习库

pyspark编程:Python和spark的结合

  推荐系统

python数据分析

Python机器学习

大数据框架安装功能来划分

1、海量数据存储:

HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES

2、海量数据分析:

MapReduce、Spark、SQL

  最原始的Hadoop框架,科普下:大数据绝大多数框架,都属于Apache顶级项目,可以了解下hadoop和Apache官网

  数据存储:HDFS(Hadoop Distributed File System)

  数据分析:MapReduce

HDFS:

  主节点:NameNode

  决定着数据存储到那个DataNode上

  从节点:DataNode

  存储数据



相关内容