大数据开发 就业期间 学生们面试中遇到的问题
sparkStreaming和flink的区别
1,搭建过hdfs集群吗
2,说几个你自定义的函数
3,说一下udtf,udf,udaf的区别
4,hdfs如何实现高可用
5,做出来的报表存放在哪?
6,explode炸裂函数如果要炸裂的数据中有null,会有什么影响?
7,sparksql数据倾斜怎么处理?
8,spark如何配置参数进行调优?
9,sparkStreaming和flink的区别
没有答上来:
2,说几个你自定义的函数
6,explode炸裂函数如果要炸裂的数据中有null,会有什么影响?
9,sparkStreaming和flink的区别
项目问题
1,归因算法,举例,有十个广告位,统计一下,最终完成订单支付成功,这个过程的末次触点归因分析,如何做,
2,数据源端埋点数据到flume采集过程,数据放到哪里,这里具体是怎么去做的
3,做一些可视化报表用什么工具做的
4,可以自己搭建数仓吗?
面试题:
1.HDFS的读写流程
2.hive由那些部分组成
3.spark的rdd本质是什么?常用那些迭代器
4.二分查找法(笔试题让用程序写一个排序方法)你在平时工作中有哪些应用?
5.hive中常用的函数有哪些?你们都用在什么地方?
6.你们的行为日志在json里都有哪些信息,详细叙述,如何把json里的数据做成表的,描述一下实现方式
7.详细讲一下漏斗转化模型分析,你们程序中是怎么实现的?
8.hive中有哪些函数,你常用的有哪些说出两三种,用在项目里的那些地方
9.left join在什么情况下回数据溢出
10.讲一下jvm的机制
11.yarn的运行原理
面试过程中遇到的疑难问题:
1.hivesql的底层优化?
2.mr和spark关于shuffle的区别?
3.简单谈一谈对于数仓的理解,对于数仓模型的理解 有没有参与过数仓的模型优化 有没有曾经建设过一些数仓模型
面试过程中遇到的疑难问题:
你们的数据是落到hdfs上的,那kafka是用来做什么的?
数据采集落到hdfs上有没有遇到什么问题?
数据采集之后导入到ods层也是以json格式存储吗?
json数据导入到ods层以后是怎么实现分成多个字段的?
通过jsonSerde实现的,那你知道它的底层原理吗?
入仓之后的一个分层结构是怎么样的?
怎么计算三日七日三十日留存?
Left join和right join是怎么实现的,得到什么结果?
简单介绍一下你做的这个业务
面试新问题:
1.为什么用flinkCDC接kafka能保证数据的高可靠性?(项目介绍中提问)
2.kafka的储存机制
最后,如果有需要提升加强学习下项目,可以搜【多易教育】,专业做大数据开发。
.面试过程中遇到的疑难问题:
28.Mysql去重怎么使用 怎么优化distinct
Select distinct 字段名 from 表名 在所有列上转换为group by 并与order by 子句结合使用
29.Myisam与innodb的区别
Innodb支持事务 支持外键 并发量较大 适合大量update 不适合大量的select
Myisam 不支持事务 不支持外键 并发量较小 不适合大量update 适合大量的select
30.Mysql当中支持几种事务
扁平事务 带有保存点的扁平事务 链事务 嵌套事务 分布式事务
31.Char和varchar的区别
Char适用于列的长度为定值的情况 varchar适用于字符串列的最大长度比平均长度大的情况
22.9.8号新面试题
城云数据面试题:
1.平时项目中kettle和sqoop是怎么使用的,怎样去做调度。
2.再以往的项目中面临过的逻辑最复杂、最难写的sql是怎样的?是什么样的模型?怎么解决的?
3.怎么保证数据质量?
4.项目发布的大致流程是怎样的?
5.之前的项目中是否有对sql的书写规范的要求?
6.之前项目组的规模和结构是怎样的?
7、存储过程是怎样调度的,用到的工具
8、怎么保证数据质量
9、自测包括哪些方面
10、项目中是否有对sql的书写规范的要求?
11、存储过程中表头怎样定义的
12、数据是怎么导入到数据库的/用的什么工具/性能怎么样
13、怎么找出一个大表中出现了,但小表中没有的数据
14、求学生最好的学科前两名的成绩
15、数据脱敏/怎么把手机号中间四位数隐藏
2022.9.9面试新问题:
1.为什么用flinkCDC接kafka能保证数据的高可靠性?(项目介绍中提问)
2.kafka的储存机制
面试过程中遇到的疑难问题:
32.yarn的调度器用的什么调度器
33.公平调度器和容量调度器有什么区别
34.dolphin里用户和租户有什么区别
35.dolphinscheduler怎么和hadoop集群集成
36.dolphinscheduler有哪几种角色
37.dolphinscheduler资源中心的概念
38.spark开发udf的流程
.面试遇到的问题
flume采集过程中对目录结构有什么要求,采集的是增量还是全量,采集增量怎么判断是否重复
kafka偏移量是手动提交还是自动提交
spark开窗函数
.面试遇到的问题
spark提交任务方式具体参数
spark广播变量的作用