一只爱飞翔的猪

2025-10-28 18:17 北京理工大学算法工程师发布于北京

关注

sh AI lab 面试题

import torch
import torch.nn as nn
import torch.nn.functional as F

class GRPO:
    def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2):
        self.policy = policy
        self.ref_policy = ref_policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
        self.beta = beta
        self.eps_clip = eps_clip
    
    def compute_loss(self, input_ids, old_logp, rewards, advantages):
        """
        input_ids: [B, T]
        old_logp: [B, T] 旧策略log概率
        rewards:  RM奖励
        advantages:  GAE优势
        """
        new_logp = self.policy.log_prob(input_ids)  # [B, T]
        ratio = torch.exp(new_logp - old_logp)      # [B, T]
        
        # GRPO：组内归一化优势（每组4样本）
        B = advantages.size(0)
        group_size = 4
        advantages = 
        
        # PPO裁剪
        surr1 = 
        surr2 = 
        policy_loss = 
        
        # KL惩罚
        ref_logp = 
        kl = 
        
        loss = 
        return loss
    
    def step(self, input_ids, old_logp, rewards, advantages):
        loss = self.compute_loss(input_ids, old_logp, rewards, advantages)
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        return loss.item()

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

01-31 13:09

中信证券校招管培生面经

上海分公司在正式面试前会设置一轮线下意向面谈，主要目的就是看你的心理准备和长期意愿。面试官直接问你知不知道这个岗位的销售性质，直说会在营业部，有6个月的实习期，和两年半保护期，有开户量、交易量KPI要求。会聊个人基本情况（本地人有房有资源应该是加分项），其余就是针对简历常规问题。面试要穿正装，1v1,体验很好。要穿正装，签到时看了名单，很多人鸽了，但还是很海。

点赞评论收藏

分享

02-03 09:01

蚌埠坦克学院嵌入式软件开发

安克创新嵌入式二面

1. 简单介绍一下你自己和你的项目经历参考答案：我是XXX，毕业于XX大学XX专业，有X年嵌入式开发经验。我的技术栈主要包括C/C++编程、ARM架构、Linux和RTOS双平台开发，熟悉常用通信协议和驱动开发。在项目经验方面，我主要做过三类项目。第一类是基于Linux的智能设备开发，负责应用层和驱动层的开发工作，实现了设备的网络通信和数据处理功能。第二类是基于FreeRTOS的实时控制系统，主要做传感器数据采集和电机控制，对实时性和稳定性要求较高。第三类是智能硬件产品，涉及到低功耗设计、无线通信和用户交互，这让我对产品化开发有了更深的理解。我比较擅长的是底层驱动开发和系统优化，能够独立完成从...

嵌入式面试八股文全集

点赞评论收藏

分享

01-08 16:12

传音控股_算法工程师

招个好点的实习生这么难吗

面了5个实习生了，技术好的base不是特别考虑，base满足的技术又不太行，真难呀，各位优秀的学弟学妹们毛遂自荐呀【岗位职责】1. 算法优化与落地：重点参与图像编辑（Image Editing）领域的算法研究，特别是针对图像消除（Object Removal/Inpainting）任务的效果优化。2. 核心技术攻关：模型蒸馏：参与大规模生成模型的蒸馏工作，在保证生成质量的前提下，优化模型推理速度与显存占用。RLHF 对齐：探索并应用 RLHF（Reinforcement Learning from Human Feedback）技术，利用人类反馈数据优化生成模型的逻辑一致性与视觉美感。1. 实验与数据管理：负责相关算法实验的配置、运行与结果分析；协助进行高质量训练数据的清洗、整理与构建，建立更高效的数据 pipeline。2. 前沿探索：阅读最新顶会论文，复现并改进 SOTA 算法，探索提升消除任务鲁棒性的新方法。base：深圳薪资：200-400公司：传音邮箱：xin.wang4@transsion.com

迷茫的大四🐶：base不满足是为什么

，实习薪资开高一点也行吧

点赞评论收藏

分享

01-29 14:38

中原工学院嵌入式软件工程师

兄弟们给点建议，有点迷茫了，双非本科，进了个小厂嵌入式测试实习，但是想做开发，培训机构出来的，真心求点建议！

今年春招是金一银二嘛？

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 在大厂上班是一种什么样的体验 #

4554次浏览 67人参与

# 找工作的破防时刻 #

251605次浏览 1953人参与

# 程序员找工作至少要刷多少题？ #

9216次浏览 146人参与

# 你投递的公司有几家约面了？ #

157768次浏览 995人参与

# 论秋招对个人心气的改变 #

5802次浏览 104人参与

# 我的AI电子员工 #

26112次浏览 159人参与

# OPPO求职进展汇总 #

770882次浏览 5396人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

1805次浏览 54人参与

# 刚入职的你踩过哪些坑 #

4139次浏览 91人参与

# 程序员能干到多少岁？ #

5692次浏览 90人参与

# 一张图晒一下你的AI员工 #

2891次浏览 62人参与

# 牛客AI体验站 #

3243次浏览 88人参与

# 我现在比当时_，你想录用我吗 #

3613次浏览 63人参与

# 想辞职但是不敢的原因 #

20144次浏览 88人参与

# ai智能作图 #

624680次浏览 5627人参与

# AI Coding的使用心得 #

2269次浏览 59人参与

# 关于春招/暑期实习，你想知道哪些信息？ #

3876次浏览 84人参与

# 牛客租房专区 #

146700次浏览 1464人参与

# 晒晒你司的新年福利 #

3920次浏览 70人参与

# 虾皮求职进展汇总 #

373362次浏览 2792人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务