字节大模型算法实习一面 1h

1.实习介绍
2.论文工作介绍
3.为什么构建这个benchmark
4.构建数据集的时候遇到哪些问题,怎么解决
5.选择这个微调模型的原因
6.mplug的框架
7.视觉编码器用的什么
8.线性投影层具体情况
9.qwen2的结构
10.transformer的计算
11.了不了解其他的transformer或者attention
12.用了多少卡
13.怎么做的分布式训练
14.zero3不适合训练使用的原因
15.介绍论文的多阶段CoT微调
16.lora的原理
17.lora的初始化
18.矩阵B 为什么用0初始化
19.手撕:一个字符串中出现次数最多的字符以及次数
20.反问的时候还问了强化学习的原理
全部评论
字节实习一共几面
点赞 回复 分享
发布于 昨天 09:27 北京

相关推荐

评论
2
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务