1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用_牛客网

在改简历的大卫很认真

昨天 11:29 浙江工业大学深度学习

关注

1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

03-02 19:26

浙江工业大学深度学习

最近看到很多 92 的，甚至是硕士，开始往测开赛道卷，说实话有点看不懂。先把话说清楚，大厂里的测开，绝大多数时间干的还是测试的活，只是写点自动化脚本、维护测试平台、接接流水线，真正像开发一样做系统、做架构、做核心平台的测开少得可怜，基本都集中在核心提效组，而且人很少，外面进去的大概率轮不到你，我想真正干过人都清楚。很多人被洗脑了，以为测开也是开，和后端差不多，只是更简单、更轻松、还高薪。现实情况是，测开和开发的职业路径完全不一样。开发的核心是业务和系统能力，测开的核心是稳定性和覆盖率，前者是往上走，后者天花板非常明显。你可以见到很多开发转测开，但你很少见到干了几年测开还能顺利转回开发的。更现实一点说，92 的高学历如果拿来做测开，大部分时间就是在做重复性很强的杂活，这种工作对个人能力的放大效应非常弱。三年下来，你和一个双非的，甚至本科的测开差距不会太大，但你和同龄的后端、平台开发差距会非常明显。这不是努不努力的问题，是赛道问题。所谓测开简单高薪，本质上是把极少数核心测开的上限，当成了整个岗位的常态来宣传。那些工资高、技术强的测开，本身就是开发水平，只是挂了个测开的名。普通人进去，99% 做的都是项目兜底型工作，而不是你想象中的平台开发。测开不是不能做，但它绝对不是开发的平替，也不是性价比最优解。如果你是真的不想做开发，追求稳定，那测开没问题。但如果你只是觉得测开比后端容易，还能进大厂，那我劝你冷静一点，这只是在用短期安全感换长期天花板。有92的学历，如果你连测开这些重复性工作都能心甘情愿接受，那你把时间精力用在真正的开发、系统、业务深度上，回报大概率比卷测开要高得多。想清楚再下场，别被岗位名和话术带偏了，就算去个前端客户端也是随便占坑的，测开是一个坑位很少赛道，反而大面积学历下放，不用想也能知道会是什么结果，我想各位在JAVA那里已经看到了工作只是谋生的手段 而不是相互比较和歧视观点很赞👍观点很赞👍观点很赞👍首先上班是为了赚钱校招工资差距不大，难度差异很大，其次上班尽可能进大厂测开也好于中厂前端小厂后端。测开基本上有学历会hot100大厂就能捞去。还卷后端就是三四面拷打加数十个92 的横向比较。在开发也不稳定的情况下，谈什么岗位之间稳定度，都是按部门按年龄裁员，后端也没啥技术含量但是校招面试难。选好进的就完了。选岗要谨慎呀而且你也太高估所谓开发的成长度了，大部分java go程序员，互联网开发干几年十几年除了有一定熟练度，本质上和工作了一两年的根本没啥区别，能用到的开发技术就那么多，大部分人大厂工作期限都不满十年，考虑成长性就很，在我看来算法都没啥成长性和不可替代性。。。。。。行业公司的区别远大于岗位选岗要谨慎呀测测你的有一说一，还真是，绝大多数时间都是干测试的工作，写写checklist，看看流水线啥的，没有任何敲代码的工作但你是字节跳动 已经赢了！字节不至于吧，我们纯开0测继客户端劝退后又有测开劝退，实在不知道该去哪里了我都想把牛客小红书卸载了 越看越焦虑佬，其实大部分人都逃不过35岁命运，更何况现在裁员岁数还在下降，能赚到钱才是实打实的没事的，上交劝退他们就行钱到位就行，岗不岗的不重要92都去后端 我双非才有位置去测开北大是双非是吧但凡能找到能认识的中大厂后端谁去测开啊92不赢的话要高考干什么ai味道你说的对🤔测开真这么卷？大厂的测开也是大厂，又不是每个人都是高强度学习去大厂开发，你是在这劝退那些人抢饭碗？92起点高，但也要学习呢我其实想吐槽双九的软开测开真这么卷？去测开不如去银行电网认同此观点👍说的很在理测开也可以 主要是不倦半步就班的来

点赞评论收藏

分享

03-02 23:00

快手_后端开发

AI认知篇3：Function Calling/MCP/Skills 的概念和作用

前言这是我的agent系列文章的第2篇，该系列分为三部分：AI认知篇：详细讲解相关基础概念AI实践篇：分享诸如skills怎么写、怎么ai coding、怎么写好prompt等的最佳实践AI八股篇：分享我自己整理的应付大模型应用开发岗位必备的八股笔记如果觉得有帮助，欢迎关注我并期待后续文章！预期是日更哦！当天没更可能是因为太累了，周末会弥补的。做 AI Agent 开发，总被 Function Calling、MCP、Skills 这三个概念绕晕？其实三者层层递进，MCP 和 Skills 都基于 Function Calling 打造，只是解决的实际问题不同，二者甚至并非互补，而是核心竞争关...

Java抽象带篮子_...：今日份日更贴来了，我tm猛猛学

后端及ai应用开发双修知...

点赞评论收藏

分享

昨天 07:20

门头沟学院机器学习

ai infra字节实习二面

整理下面经攒攒人品1. linear atten手撕2.moe手撕3.mha手撕4.mla手撕5.上面的手撕的访存计算。6.deepseekv3的结构伪代码手撕+参数量手算+每次推理访存量手算。7.算法题:堆排序8.手撕reduce和reduce的优化

查看8道真题和解析

点赞评论收藏

分享

昨天 16:09

西安交通大学运营

如何打造千万级并发的数字交易所？深度解析撮合引擎与风控架构设计

引言：数字交易的"超算时代"当上海某数字资产交易所单日交易峰值突破3200万笔时，其技术团队发现传统架构的撮合延迟从8毫秒飙升至2.3秒——这相当于在F1赛道上突然换上自行车轮胎。在数字资产交易量年均增长217%的今天，如何构建能够承载千万级并发的交易系统，已成为决定平台生死存亡的核心命题。本文将深度揭秘撮合引擎与风控架构的协同进化之路，展现这场没有硝烟的技术军备竞赛。一、撮合引擎：交易系统的"超导神经"1.1 算法革命：从FIFO到量子化匹配传统交易所采用的"价格优先-时间优先"（FIFO）算法，在面对每秒10万级订单冲击时，会因锁...

非技术岗薪资爆料

点赞评论收藏

分享

昨天 17:17

华南理工大学 Java

毕业十年工作经验不是梦

中学就可以开始实习，这世界已经颠成我看不懂的样子了中学3年+大学四年+研究生3年毕业即10年工作经验

点赞评论收藏

分享

牛客热帖

更多

正在热议

更多

# 实习生至暗时刻 #

4820次浏览 93人参与

# AI求职记录 #

1043次浏览 61人参与

# 神州信息求职进展汇总 #

1959次浏览 43人参与

# 交出你的校招焚诀 #

1671次浏览 43人参与

# 你见过最离谱的招聘要求是什么？ #

260463次浏览 1750人参与

# 哪些公司开暑期实习了？ #

5642次浏览 46人参与

# AI面试问题分享 #

5220次浏览 106人参与

# 春招开局，你有保底offer吗？ #

9082次浏览 84人参与

# 面试___岗的必刷题单 #

3012次浏览 44人参与

# 三月的小目标 #

3118次浏览 61人参与

# 实习生的生存小技巧 #

2765次浏览 53人参与

# 小厂一定不能去吗？ #

10454次浏览 103人参与

# 你经历过哪些AI幻觉？ #

1832次浏览 37人参与

# 十二月请对我好一点 #

84602次浏览 688人参与

# 找AI工作应该卷什么？ #

1363次浏览 27人参与

# 你今年的保底offer是哪家 #

171891次浏览 721人参与

# 面试时间长是好事吗？ #

129561次浏览 741人参与

# 金融财经春招备战日记 #

55312次浏览 238人参与

# 字节开奖 #

128680次浏览 590人参与

# 实习/项目/竞赛奖项，哪个对找工作更重要？ #

107234次浏览 1189人参与

# 小厂实习有必要去吗 #

83185次浏览 404人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务