攒人品:作业帮大模型算法面经
作业帮大模型算法面经
- 讲一下kv cache是怎么节省空间的?kv cache的计算流程
- kv cache有没有改进空间
- 参数怎么调整的?有什么意义?top k/top p/温度参数
- 一个大的模型,怎么得到一个小模型?
- Tokenizer 训练用了什么模型?
- 讲一下 Grouped Query Attention
- 讲一下 RoPE旋转位置编码
- git操作 如何拉取一个分支的代码到本地
- 如何讲一个分支的代码提交远端?
- 如果批量的对一批文件做移动操作?
- 旋转位置编码可以加强长上下文,如果这个时候输入了一个超过最大长度的句子,该怎么处理?
- 如何量化评价模型?
