快手秋招一面-数开
1.spark SQL执行过程
2.DAG图怎么划分,RDD是什么
3.宽窄依赖怎么划分,哪些算子会生成宽依赖,哪些算子会生成窄依赖
4.宽依赖partition怎么处理,怎么去减少shuffle
5. spark相对于MapReduce的优势
6.spark内存爆了,怎么定位是否出现这个问题,问题出现在哪
7.具体看哪个指标才能知道是否是内存爆了,内存溢出会带来什么问题
8.spark和flink做实时有什么区别
9.水位线什么概念
10.窗口关闭只能根据水位线来实现吗
11.flink分哪几种窗口
