12-26 18:13 北京理工大学算法工程师发布于北京

关注

阿里控股审核一面

# 假设已存在：
# model, old_model
# optimizer
# eps, beta
# K: 每个 prompt 的 group size

old_model.load_state_dict(model.state_dict())
old_model.eval()

for step, batch in enumerate(dataloader):
    optimizer.zero_grad()

    total_loss = 0.0

    for prompt in batch:
        # 1. 用 old policy 采样（不参与梯度）
        with torch.no_grad():
            completions, old_log_probs = old_model.sample_log_probs(
                prompt, K
            )  # shape: [K, T]

        # 2. 用当前 policy 重新计算 log_probs
        _, new_log_probs = model.log_probs(
            prompt, completions
        )  # shape: [K, T]

        # 3. reward（sequence-level）
        rewards = reward_fn(completions)  # shape: [K]

        # 4. GRPO advantage（group 内归一化）
        advantages = (rewards - rewards.mean()) / (rewards.std() + 1e-8)
        advantages = advantages.detach()  # 明确不回传

        # 5. token-level log-prob 求和
        old_lp = old_log_probs.sum(dim=-1)  # [K]
        new_lp = new_log_probs.sum(dim=-1)  # [K]

        # 6. PPO / GRPO ratio
        ratio = torch.exp(new_lp - old_lp)

        # 7. clipped surrogate objective
        clipped_ratio = torch.clamp(ratio, 1 - eps, 1 + eps)
        policy_loss = -torch.mean(
            torch.min(ratio * advantages, clipped_ratio * advantages)
        )

        # 8. KL penalty（old || new）
        kl_loss = beta * torch.mean(old_lp - new_lp)

        # 9. 总 loss
        loss = policy_loss + kl_loss
        total_loss += loss

    # 10. batch 反传
    total_loss.backward()
    optimizer.step()

    # 11. 周期性同步 old_model
    if step % OLD_SYNC_INTERVAL == 0:
        old_model.load_state_dict(model.state_dict())
        old_model.eval()

忘记了torch.exp(log_logits)
忘记了

policy_loss = -torch.mean(
            torch.min(ratio * advantages, clipped_ratio * advantages)
        )

另外忘记了kl散度的计算方式

# 8. KL penalty（old || new）
  kl_loss = beta * torch.mean(old_lp - new_lp)

全部评论

推荐最新楼层

想去西藏旅游的小熊猫在泡澡

石河子第一中学算法工程师

怎么还在面呀有签了的公司嘛

点赞回复分享

发布于昨天 00:15 北京

12-24 12:41

山东大学 Java

秋招开始抉择了，大家给个建议

投票

遇到秋招难题了1.华为还没开但是hr给我转了个base说这个新base概率很大，且说这周能有结果2.作业帮开奖了但是今天就必须要签三方，作业帮风评也怪不好的。3.两个薪资差不多。主要考虑到春招还想看看其他机会，学校三方只能毁一次，所以这俩只能选一个。华为title更高，但是考虑以后的话作业帮技术栈跟其他互联网大厂更能对的上，不知道这俩哪个好跳一点。反正总之就是很纠结，大家有什么建议吗？

投递作业帮等公司7个岗位

点赞评论收藏

12-06 12:45

门头沟学院人工智能

一名解决方案架构师的自我怀疑

解决方案架构师仅是一个详细职位名：类似于XX工程师，不要以为是什么超高端职业。可以类比测试工程师和算法工程师的区别。楼主自七月初进入工作以来已经即将六个月转正答辩了。自进入部门以来，就以实操、项目作为历练，在入职一周的时候就得到了单SA（解决方案架构师）对单项目的团队责任矩阵，这无疑是对新人来说莫大的挑战。虽然如此，但是部门内部氛围和谐，导师是超级火车头，能力极强，领导无pua，团队内内耗极少，再加上最前沿的新兴行业催化下，我也成了一名还算合格的SA。叹息之墙一般的困境对于任何一名产品解决方案架构师，最夸张的难题无疑是一个东西——产品能力极差。抽象来所，友商10块钱可以达到20的性能数值，你的...

高薪高压 vs 低薪wl...

点赞评论收藏

不愿透露姓名的神秘牛友

12-07 10:10

offer选择，华为还是普源精电

华为 上海 openharmony，做一些鸿蒙数据库方面的sdk开发，n x16，工作时间一二四，上午9到晚上10，周三周五6点走，周末有加班费普源精电 国产示波器龙头 苏州 嵌入式软开 n x 17，工作时间10 8 5，双休大家觉得在职业发展和薪资待遇方面哪家比较好？鸿蒙sdk开发未来好跳吗？

点赞评论收藏

12-16 21:05

自然语言处理

华为公共开发部通软base上海/东莞有开奖的大佬么？

2号保温一次之后就没有消息了问接口人也不会消息是不是没有HC了

点赞评论收藏

12-23 17:15

门头沟学院 Java

华为云开发已开奖，写个时间线

10.28线下三面11.20微信第一次保温12.9电话第二次保温12.19OC17k

校招薪资来揭秘

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 离家近房租贵VS离家远但房租低，怎么选 #