作业帮大模型算法面经讲一下kv cache是怎么节省空间的?kv cache的计算流程kv cache有没有改进空间参数怎么调整的?有什么意义?top k/top p/温度参数一个大的模型,怎么得到一个小模型? Tokenizer 训练用了什么模型?讲一下 Grouped Query Attention 讲一下 RoPE旋转位置编码 git操作 如何拉取一个分支的代码到本地如何讲一个分支的代码提交远端?如果批量的对一批文件做移动操作?旋转位置编码可以加强长上下文,如果这个时候输入了一个超过最大长度的句子,该怎么处理?如何量化评价模型?