最新大数据资料合集分享
admin
2023-09-25 05:40:04
0



大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。阿里巴巴创始人马云曾经在演讲中就提到:未来的时代将不是IT时代,而是大数据的时代。

大数据被认为是“未来的新石油”,在社会生产、流通、分配、消费活动以及经济运行机制等方面发挥着重要的作用。


作为 IT 类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。国内 IT、通讯、行业招聘中,有 10% 都是和大数据相关的,且比例还在上升。“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。

数据科学家也被称为21世纪最有前景的职业之一,相关职位的薪酬也远远超过其他行业。

往数据发展的基本学习路径可以概括为以下内容:

1. EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。

2. 数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。

3. 统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。

其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。

4. 机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。

6.文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。

7. 工具类

语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。

可视化(选学):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错

数据库语言:看你自己用啥学啥

其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)

今天,为大家整理了超过200G的大数据学习资料,让你在未来的竞争中先人一步!

资料预览





领取指南



相关内容