预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100) 预训练是为了吃知识、SFT为了指令遵循
7 4

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务