小北的求职树洞

2025-03-22 12:28 哈尔滨工业大学产品经理发布于北京

关注

面试官：Deepseek推理大模型与指令大模型（如豆包、文心）等有什么不同？

一、训练范式与核心技术
1. 强化学习主导
- DeepSeek-R1基于大规模强化学习（RL）完成后训练，其强化学习训练占比超过95%，甚至存在完全依赖RL的DeepSeek-R1-Zero版本。
- 传统指令模型（如文心、ChatGPT O1）则更依赖监督微调（SFT）和人类反馈的强化学习（RLHF）。
2. 冷启动与多阶段训练
- DeepSeek-R1通过引入高质量“冷启动”数据辅助初始阶段学习，并结合多阶段训练策略（如拒绝采样）提升推理能力。
- 而指令模型通常直接从预训练模型通过SFT对齐人类偏好。

二、能力与任务适配性
1. 复杂推理能力
- DeepSeek-R1专门针对数学推导、代码生成、逻辑分析等复杂任务优化，其推理过程中支持自我验证、错误检测及多路径探索。
- 指令模型更侧重通用对话和指令理解，在复杂推理任务中表现较弱。
2. 生成质量差异
- DeepSeek-R1的纯RL版本（R1-Zero）存在生成内容可读性较低的问题，需通过混合训练策略改进，
- 而指令模型因依赖SFT数据，输出更符合人类语言习惯。

三、架构设计与成本效率
1. 优化算法创新
- DeepSeek-R1采用Group Relative Policy Optimization（GRPO）等新型RL算法，支持无监督条件下的推理能力进化。
- 指令模型通常沿用PPO等传统RLHF算法。
2. 成本优势
- DeepSeek-R1在同等性能下成本比OpenAI o1系列低30倍，且在数学、代码基准测试中达到甚至超越Claude 3.5 Sonnet等模型。

四、应用场景与合规性
1. 垂直领域适配
- DeepSeek-R1更适用于科研、金融等高精度推理场景，
- 而ChatGPT O1等指令模型偏向通用客服、教育等泛化场景。

#产品经理# #Ai产品经理# #AI# #牛客创作赏金赛# #牛客激励计划#

全部评论

推荐最新楼层

不进华为就延毕

桂林电子科技大学 Java

mark

点赞回复分享

发布于 2025-03-24 19:55 广西

给一个好offer吧

江苏科技大学 Java

mark

点赞回复分享

发布于 2025-03-24 19:50 江苏

01-29 21:08

蚌埠坦克学院嵌入式软件开发

赚钱后可以给家里人买东西，这就是意义！

不是理想多宏大，也不是目标多远大。只是有一天，不用再算来算去，可以心安理得地掏钱。给爸妈换个好点的手机，给家里添点需要却一直没舍得买的东西。那一刻你会发现，努力不是抽象的词，而是落在具体的人和事上。钱当然不能解决所有问题，但它能解决很多本该被解决的事。能让你少一点愧疚，多一点底气。所以我想赚钱。不是为了炫耀，只是想对家里人好一点。这就够了。

赚钱的意义在这一刻具象化

点赞评论收藏

分享

01-28 22:28

TP-LINK_软件算法工程师(准入职员工)

TP-Link内推，TP-Link内推码

🎈下面是面试过程 0.自我介绍+项目介绍 1.咱们家是哪里的 2.本科成绩怎么样 3.考研多少分（保研的） 4.是学硕对吧？奖学金拿过多少次？ 5.发过论文、专著之类的吗？（无） 6.有没有参加过什么比赛拿到省级以上奖励？ 7.有实习经历吗？ 8.创建线程都有哪些方式？ 9.JVM分为哪些区域？ 10.MySQL除了增删改查之外，还知道哪些关键字？ 11.having子句有什么作用？ 12.redis有哪些数据结构？ 13.用过消息中间件吗？知道哪些？ 14.这些消息队列使用场景有什么区别吗？ 15.设计模式知道哪些？ 16.你在学校最有成就感的一件事情是什么？ 17.现在有其他公司offe...

点赞评论收藏

分享

昨天 02:29

深圳职业技术学院护士

害怕被嘲笑就不去做了吗？

晚上和一个老哥聊天，加深了自己对一些事情的思考就是一个人在公共场合敢实名表达自己的感受，自己的思考，自己的观点，是一件需要非常非常大勇气的事情，这意味着你触达内心的想法感受，会被大众所注视，审判，而绝大多数人都会异常在意别人对自己的看法，所以当大规模的眼光都看在你身上的时候，这种压力不是谁都能抗下来的。小一点的是在朋友圈写小作文发表自己内心的想法，之前我是能经常看到不少同学吃一个东西 或者 去一个地方玩然后长篇大论写下自己感受的朋友圈，但现在我也很少在朋友圈看到这些内容了，大家是长大了，开始忽略这些感受了，还是越来越不愿意拿出来分享了……大一点是直接做自媒体，更大范围地展示自己，直接向全互联网的人述说自己的经历，表达自己的想法，展示自己性感的大脑，让互联网的所有人凝视你，审判你，赞扬你，诋毁你……说实话，这非常像把自己扒光了游街示众的感觉，只有真正在互联网上实名发表过这种口播视频之后，才懂这种感觉有多奇妙哈哈哈我们不说钱不钱的问题，关说对个人能力的提升，这非常锻炼人，非常非常锻炼人，你的表达能力，你的心理素质都在全方面提升，你的心理抗压能力也会不断提升，因为无论怎么说都有人骂你，你说苹果手机好用，都有人骂你叛国贼[捂脸][捂脸][捂脸]一开始最大的障碍就是怕熟人看到，特别尴尬，怕大家议论你，嘲笑你，但其实真的有那么多人关注你吗？真的有那么多人嘲笑你吗？可能都是自己在臆想，出现幻觉了就算真的有人当面嘲笑你，这又怕什么呢，我始终坚信一个真正从0到1在某个领域做成功一件事的人（标准：得到这个领域人的普遍认可）是不会嘲笑一个开始很笨拙的人，因为谁不是这样走过来的？谁一开始就做的很好，谁刚开始做就很随心所欲，是你吗？一个健身大神会嘲笑一个刚入健身房的新手吗？一个高级程序员会嘲笑一个刚学会打hello world的新手吗？一个减肥成功的人会嘲笑刚开始跑几步路就喘的胖子吗？一个作家会嘲笑刚开始写小作文词不达意语句不通顺的菜鸟吗？一个人但凡能嘲笑你，那就证明他没做成哪怕至少一件事，没在一个领域得到绝大多数人的普遍认可，这种人的嘲笑是多么无力，这是他无能的狂怒，他自己不敢，自己半途而废，他怕你做成了，证明他自己是废物而已（这里说话比较难听）从我刚开始从化学跨行当程序员时，我就开始向外展示这些事情，然后无论在现实里还是在互联网上，我都听过非常非常多嘲笑的声音，否定的声音，所以我一度非常敏感，非常脆弱在大二这一年我几乎不敢见人，我每天吃喝拉撒都在实验室的小工位，我怕出去会被人嘲笑，会被否定，因为随随便便一句话我就能蹲在天台哭一晚上，直到我突然进了美团的日常实习，直到我突然进了字节的暑期实习，直到我秋招又拿了字节的offer，这个时候我已经站在高处，我回头看，我向下看，之前那些否定嘲笑的声音早已听不见，我已经在山上了，而他们又在哪呢？而我发现当时那些鼓励我，认可我，支持我的兄弟们，不是那些已经在某个领域取得一定成果的人，就是那些同样在路上的同伴，好像只有这些人，他们才会对蹒跚学步的新手给予鼓励与帮助……最后居然戏剧性地来了一个callback 呼应了我大一演小品的一句台词且视他人之疑目如盏盏鬼火大胆地去走你的夜路！这是我自己的亲身经验，也是我想表达，传递的内容，想干什么就去干吧，至于别人怎么看，随他吧，反正弱者才会嘲笑你，强者都会向你伸出援手……

牛友故事会

点赞评论收藏

分享

01-30 22:03

门头沟学院 Java

我这个简历春招有机会吗

大家觉得我这个简历能找到什么样的，中厂有希望吗，简历无水分全真实的

牛客54957643...：主管夸张了吧

点赞评论收藏

分享

01-29 19:18

小红书_后端开发_REDstar算法工程师(准入职员工)

禾赛科技内推，禾赛科技内推码

禾赛科技 嵌入式开发（操作系统）面经⚜技术是真的过硬啊，秋招嵌入式被拷打的最狠之一。原定45分钟，拷打一个半小时，涉及知识面特别广，实际问的比这还要多，记忆有限。不过也无后续，但也没挂，估计在L3缓存里面吧⭕一面（9.18）1. 自我介绍2. 项目介绍3. 有没有测量IMU精度4. 串口有几根线，中断配置？5. IIC有几根线？讲一讲怎么通信？详细说一下读取寄存器的流程6. 说一说任务有哪几种状态？就绪和阻塞的任务放在哪里？放在同一个链表上面吗？7. 任务怎么进入阻塞态？（主动挂起，被强占，争取不到资源等）8. 说一说死锁？9. 怎么解决死锁问题？（获取不到锁的时候，释放本身的资源）10. 有...

点赞评论收藏

分享

评论

11

18

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 在大厂上班是一种什么样的体验 #

3510次浏览 45人参与

# 找工作的破防时刻 #

251276次浏览 1948人参与

# 程序员找工作至少要刷多少题？ #

7479次浏览 120人参与

# 程序员能干到多少岁？ #

5159次浏览 81人参与

# 论秋招对个人心气的改变 #

5094次浏览 89人参与

# 刚入职的你踩过哪些坑 #

3510次浏览 79人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

1503次浏览 47人参与

# 你投递的公司有几家约面了？ #

157560次浏览 994人参与

# 一张图晒一下你的AI员工 #

2437次浏览 59人参与

# 牛客AI体验站 #

2618次浏览 76人参与

# OPPO求职进展汇总 #

770627次浏览 5396人参与

# AI Coding的使用心得 #

1998次浏览 51人参与

# 我现在比当时_，你想录用我吗 #

3266次浏览 51人参与

# 关于春招/暑期实习，你想知道哪些信息？ #

3469次浏览 73人参与

# 晒晒你司的新年福利 #

3321次浏览 57人参与

# 腾讯工作体验 #

563151次浏览 3688人参与

# 实习，不懂就问 #

164551次浏览 1465人参与

# 如果公司降薪，你会跳槽吗？ #

138794次浏览 890人参与

# 软开人，秋招你打算投哪些公司呢 #

180422次浏览 1388人参与

# 暑假倒计时，你都干了些啥？ #

40480次浏览 216人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务