阿里国际AI Infra实习凉经

1.实习介绍
2.针对项目提问
3.FlashAttention原理,Online softmax,有没有看过cuda kernel,FlashAttention V1,V2,V3,FlashDecoding原理
4.推理优化的思路(方法)有哪些
5.用没用过vllm/SGLang,原理
6.有没有听说过Dynamic Batching
7.Coding:写一个ruduce,用block,优化版:用warp shuffle,能不能再优化?
8.加载到shared memory和直接从HBM取input比为什么更快
9.有没有听说过shared memory的bank conflict
10.反问:在哪些地方可以继续提升自己
全部评论
你这都没手撕啊,你是啥时候面的
点赞 回复 分享
发布于 02-01 18:17 陕西
加载到shared memory和直接从HBM取input比为什么更快咋回答的
点赞 回复 分享
发布于 02-01 15:29 湖南

相关推荐

01-30 16:13
浙江大学 Java
点赞 评论 收藏
分享
01-30 09:45
燕山大学 Java
喵_coding:这种直接跑就完事了 哪有毕业了才签合同 任何offer和三方都没有的
点赞 评论 收藏
分享
评论
2
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务