人工标注评测,模型评测,benchmark这些吧,我记得通义刚开源了一个OpenJudge框架,支持离线和在线评测,和做基准测试,现在基模和Agent的自动化评测感觉也是一个好的方向
点赞 1

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务