干货满满!大数据核心101问

找大数据工作八股到底要背到什么程度?

首先就是不要死记硬背,要理解记忆,弄懂其中的细节;其次就是找到面试重点,因为你面试完很多场后会发现,经常被问到的题目就那些!

如果你还没有参加过面试或者不知道大数据面试重点有哪些,我这里整理了一份面试必背的101道大数据题目,一定会对你有所帮助

  1. HDFS的架构
  2. HDFS的读写流程
  3. 小文件过多有什么危害,你知道的解决办法有哪些
  4. Secondary NameNode 了解吗,它的工作机制是怎样的
  5. 简述MapReduce整个流程
  6. join原理
  7. yarn 的任务提交流程是怎样的
  8. 简述Hadoop1.0 2.0 3.0区别
  9. 简述什么是CAP理论,zookeeper满足CAP的哪两个
  10. zookeeper集群的节点数为什么建议奇数台
  11. Paxos算法
  12. Zab协议
  13. 简述flume基础架构
  14. 请说一下你提到的几种source的不同点
  15. flume采集数据会丢失吗
  16. 简述kafka的架构
  17. 简述kafka的分区策略
  18. kafka是如何保证数据不丢失和数据不重复
  19. kafka中的数据是有序的吗,如何保证有序的呢
  20. 简述kafka消息的存储机制
  21. kafka的数据是放在磁盘上还是内存上,为什么速度会快
  22. kafka消费方式
  23. HBase和hive的区别
  24. 简述HBase的读写流程
  25. HBase在写过程中的region的split时机
  26. HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
  27. 热点现象怎么产生的,以及解决方法有哪些
  28. 说一下HBase 的 rowkey 设计原则
  29. 简述hive
  30. hive和传统数据库之间的区别
  31. hive的内部表和外部表的区别
  32. hive的join底层实现
  33. Order By和Sort By的区别
  34. 行转列和列转行函数
  35. 自定义过UDF、UDTF函数吗
  36. hive小文件过多怎么办
  37. Hive优化
  38. 简述hadoop 和 spark 的不同点(为什么spark更快)
  39. 简述spark的shuffle过程
  40. spark的作业运行流程是怎么样的
  41. 你知道Application、Job、Stage、Task他们之间的关系吗
  42. Spark常见的算子介绍一下(10个以上)
  43. 简述groupByKey和reduceByKey的区别
  44. 宽依赖和窄依赖之间的区别
  45. spark为什么需要RDD持久化,持久化的方式有哪几种,他们之间的区别是什么
  46. spark调优
  47. sparksql的三种join实现
  48. 简单介绍下sparkstreaming
  49. 简述SparkStreaming窗口函数的原理
  50. 简单介绍一下Flink
  51. Flink和SparkStreaming区别
  52. 简述Flink运行流程(基于Yarn)
  53. Connect算子和Union算子的区别
  54. Flink的时间语义有哪几种 *
  55. 谈一谈你对watermark的理解
  56. Flink对于迟到或者乱序数据是怎么处理的
  57. Flink中,有哪几种类型的状态,你知道状态后端吗
  58. Flink 是如何保证 Exactly-once 语义的
  59. java的深拷贝和浅拷贝的区别
  60. java中==和equals的区别
  61. String和StringBuffer、StringBuilder的区别
  62. 简述面向对象三大特征
  63. java中方法重载和重写的区别
  64. 集合之间的继承关系
  65. ArrayList和LinkedList区别
  66. ArrayList扩容过程
  67. HashMap底层实现
  68. HashMap扩容过程
  69. ConcurrentHashMap原理
  70. java反射机制
  71. 异常体系
  72. 设计模式
  73. JVM一个类的加载过程
  74. JVM内存结构
  75. JVM中的垃圾回收算法
  76. JVM垃圾收集器
  77. java实现多线程有几种方式
  78. 线程池相关内容
  79. synchronized 的原理
  80. OSI七层模型
  81. TCP连接管理
  82. TCP是如何做到可靠传输的
  83. TCP和UDP的区别
  84. 浏览器输入URL到显示页面的过程
  85. 进程和线程的区别
  86. 什么是死锁以及死锁的四个条件
  87. 页面置换算法
  88. mysql的索引结构
  89. 简述事务
  90. 数据库事务并发会引发哪些问题
  91. 事务的四个隔离级别有哪些
  92. MVCC讲一下(怎么实现)
  93. 为什么要对数据仓库分层
  94. 数据仓库建模的方法有哪些
  95. 维度建模有哪几种模型
  96. 维度建模中表的类型
  97. 事实表的设计过程
  98. 同时在线问题
  99. 最大连续登陆的最大天数问题
  100. 留存问题
  101. 数据倾斜
#数据人的面试交流地##找工作八股要背到什么程度?#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论
感觉就是纯八股吧
点赞 回复 分享
发布于 2025-11-28 15:45 北京

相关推荐

老粉都知道小猪猪我很久没更新了,因为秋招非常非常不顺利,emo了三个月了,接下来说一下我的情况吧本人是双非本 专业是完全不着计算机边的非科班,比较有优势的是有两段大厂实习,美团和字节。秋招面了50+场泡池子泡死的:滴滴 快手 去哪儿 小鹏汽车 不知名的一两个小厂其中字节13场 两次3面挂 两次2面挂 一次一面挂其中有2场面试题没写出来,其他的都是全a,但该挂还是挂,第三次三面才面进去字节,秋招加暑期总共面了22次字节,在字节的面评可以出成书了快手面了8场,2次实习的,通过了但没去,一次2面挂 最后一次到录用评估 至今无消息滴滴三面完 没几天挂了 所有技术面找不出2个问题是我回答不上来的,三面还来说我去过字节,应该不会考虑滴滴吧,直接给我干傻了去哪儿一天速通 至今无消息小鹏汽车hr 至今无消息美团2面挂 然后不捞我了,三个志愿全部结束,估计被卡学历了虾皮二面挂 这个是我菜,面试官太牛逼了拼多多二面挂 3道题也全写了 也没问题是回答不出来的 泡一周后挂腾讯面了5次 一次2面挂 三次一面挂,我宣布腾讯是世界上最难进的互联网公司然后还有一些零零散散的中小厂,但是数量比较少,约面大多数都是大厂。整体的战况非常惨烈,面试机会少,就算面过了也需要和各路神仙横向对比,很多次我都是那个被比下去的人,不过这也正常,毕竟谁会放着一个985的硕士不招,反而去招一个双非读化学的小子感觉现在互联网对学历的要求越来越高了,不仅仅要985还要硕士了,双非几乎没啥生存空间了,我感觉未来几年双非想要进大厂开发的难度应该直线上升了,唯一的打法还是从大二刷实习,然后苟个转正,不然要是去秋招大概率是炮灰。而且就我面字节这么多次,已经开始问很多ai的东西了,你一破本科生要是没实习没科研懂什么ai啊,纯纯白给了
不知名牛友_:爸爸
秋招你被哪家公司挂了?
点赞 评论 收藏
分享
评论
点赞
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务