字节大模型算法实习一面 1h
1.实习介绍
2.论文工作介绍
3.为什么构建这个benchmark
4.构建数据集的时候遇到哪些问题,怎么解决
5.选择这个微调模型的原因
6.mplug的框架
7.视觉编码器用的什么
8.线性投影层具体情况
9.qwen2的结构
10.transformer的计算
11.了不了解其他的transformer或者attention
12.用了多少卡
13.怎么做的分布式训练
14.zero3不适合训练使用的原因
15.介绍论文的多阶段CoT微调
16.lora的原理
17.lora的初始化
18.矩阵B 为什么用0初始化
19.手撕:一个字符串中出现次数最多的字符以及次数
20.反问的时候还问了强化学习的原理
2.论文工作介绍
3.为什么构建这个benchmark
4.构建数据集的时候遇到哪些问题,怎么解决
5.选择这个微调模型的原因
6.mplug的框架
7.视觉编码器用的什么
8.线性投影层具体情况
9.qwen2的结构
10.transformer的计算
11.了不了解其他的transformer或者attention
12.用了多少卡
13.怎么做的分布式训练
14.zero3不适合训练使用的原因
15.介绍论文的多阶段CoT微调
16.lora的原理
17.lora的初始化
18.矩阵B 为什么用0初始化
19.手撕:一个字符串中出现次数最多的字符以及次数
20.反问的时候还问了强化学习的原理
全部评论
字节实习一共几面
相关推荐
12-25 16:50
南京邮电大学 人工智能 点赞 评论 收藏
分享