12-05 20:53 门头沟学院人工智能发布于山东

关注

大模型部署和部署优化全流程，都看过来。

首先讲为什么写这篇啊，因为现在基本上都是开源模型的，然后大量的公司需要自己的数据和样本，

所以非研究院这种，基本上都是开源模型二开，所以说基本上都是调试出自己的模型，部署在自己的显卡上。

那么这里就有专门的一个岗位，大伙可以去搜，叫模型部署的岗位，不过只有大公司才会有，一般的话，都是顺手全干完的。

比如我hhh，我一个人能顶人家几个，有时候能力越大，干活越多，而不想干活，就要装糖，然后能力越小，

所以说能力越大，能力越小。

ok，正式开始啊，上面讲了为什么要部署自己的模型，

这里我默认，你知道有ollma这个种东西，也默认你已经下载好了模型，有自己的显卡。

比如说你下载了个各方面都很好的，自我感觉良好的模型，现在要看他能不能用了，一般来说就是，模型的数值验证。

这里汇总了机器学习中常见的评估指标分类：

二元分类

Accuracy（准确率）：正确预测的比例

Precision（精确率/查准率）：预测为正的样本中实际为正的比例

Recall（召回率/查全率）：实际为正的样本中被正确预测的比例

F1 Score：Precision和Recall的调和平均

AUC-ROC：ROC曲线下面积，衡量分类器整体性能

AUC-PR：精确率-召回率曲线下面积（适用于不平衡数据）

检测任务（计算机视觉）

mAP（Mean Average Precision）：多个类别AP的平均值

IoU（Intersection over Union）：预测框与真实框的交并比

AP（Average Precision）：单个类别的平均精确率

P-R Curve：精确率-召回率曲线

NLP任务

机器翻译/文本生成

BLEU：基于n-gram精确率的加权几何平均

ROUGE：基于召回率的评估（ROUGE-N, ROUGE-L等）

METEOR：考虑同义词和词干的标准化评分

CIDEr：专门为图像描述设计的指标

语言模型

Perplexity（困惑度）：衡量语言模型预测能力的指标，越低越好

这些随便记一下就行，实际上最后训练完，都要看这些指标，这些个我讲过很多次了，但是训练完之后，一直没讲。

我现在跟你们讲清楚，这个时候一般是模型的格式转化。

模型格式转换：目的：将训练框架模型转为通用或推理专用格式

比如：

PyTorch->TorchScript / ONNX

TensorFlow->SavedModel / TF Lite / ONNX

Keras->HDF5 / SavedModel

常规而言只有这几种格式，你下来都拿去玩玩，我敢说我的教程基本上没有废话，我个人自身就不听废话，所以只写最简单好懂的

你只需要面试讲得出onnx，HDF5基本上就有了，

然后讲下为什么必须要转化啊：

这个问题我在5月份也提过，没想到大模型现在依旧火爆，因为剩内存和速度，pytorch这种是训练框架，

远不如onnx这种生产引擎消耗少，其次无法发挥出卡的性能，

假设正常有前置对应知识的工程师，他会这么做:导出 → 量化/优化 → 用专用推理引擎部署

通用的话是PyTorch/TensorFlow → ONNX → TensorRT/OpenVINO/ONNX Runtime（这个玩意是加速器，是用来跑onnx文件的，基本上加完速快3倍很正常，调试的好会来到5-8倍，但是我没调出来过-哭泣-）。

然后一般转化完事了优化一下，量化，剪枝，蒸馏。

在下面就是选择推理邀请和部署方式的选择了：

常规的有tensorRT，ONNX Runtime，DeepSpeed-Inference，正常你用onnx这个就行。

这个部署方式内容其实很多，我稍微讲讲，下期就讲这个：

REST API HTTP 接口，最常用,现在主流的是Flask/FastAPI + Gunicorn

还有就是边缘部署可以在设备端直接运行比如TFLite, OpenVINO, NCNN

是不是感觉要长脑子了？还没完呢。

再往后就是封装，监控，日志，CI/CD那一套了。

这些是测开的领域了，我不擅长，我也不讲hhh。

哎呀又写了1600字了，硬件的东西，不同场合的东西我下期再讲了。

#聊聊我眼中的AI#

大模型集合文章被收录于专栏

这里全放大模型的，需要自取，后面可能没什么空搞这些了。

全部评论

推荐最新楼层

12-12 14:16

门头沟学院人工智能

模型部署运维速成教学

还是收到粉丝邀请，我写一下这个题材，尽管问，尽管提，暂时不收费，我已经开始全网发布内容了。目前覆盖简书，博客园，即刻，知乎，csdn，公众号，小红书等媒体平台。首先啊，这个模型部署岗位就是运维，这个翻译成中文就是：MLOps 任何这个与传统运维/DevOps 的本质区别传统的 DevOps/运维主要处理代码和基础设施。而 MLOps 工程师则必须处理代码、模型、数据和特征。那么模型部署需要干什么？一：模型与数据生命周期管理 ：模型版本和注册管理模型工件： 确保每个训练好的模型（包括权重、配置、环境依赖）都有唯一的版本号和元数据记录。MLflow、DVC、AWS SageMaker特征工程交互确...

机器学习，推理优化，芯片...

点赞评论收藏

12-17 23:25

合肥工业大学算法工程师

蚂蚁大模型Agent算法二面-55min

1.你的 Agent 系统Prompt 是怎么设计和迭代的？有没有做过 Prompt 自动优化？当用户提出不完整的请求时，如何补全用户意图的？2.构建 Agent 的时候，遇到过哪些瓶颈？LangChain 的 memory 默认机制在多3.用户并发中怎么做隔离？你是如何保证线程安全的？4.微调 Llama2 你是怎么选择训练样本的？清洗逻辑是什么？你有没有观察到哪些训练样本质量问题对模型行为有很大影响？举例说明。5.DPO相比 SFT，有哪些优劣？它在 Agent 任务上效果提升明显吗？你怎么构造偏好对？构造逻辑是自动的还是人工？6.你说你服务部署在 vLLM 上，为何选择它？KV-cache 如何帮助推理加速？你自己做过哪些优化？7.假如需要支持 Streaming 输出，但当前服务延迟又超标，你会怎么折中设计？8.多轮对话上下文状态管理是如何做的？如何在高并发场景下保证一致性？9.你做的 Agent 使用了多少个外部工具，在调用链条上如何保障故障容错和超时机制？10.有没有做过工具调用失败后的feedback策略设计？11.训练过程中数据来自用户行为日志，你是如何从这些数据中抽取训练对话的？有没有做过归一化或事件抽象？12.有没有了解过带有时间窗口/偏移限制的对话系统？模型怎么“理解时间”？13.你觉得 Agent 哪些模块最容易在真实业务中出问题？你会如何监控和定位的？

点赞评论收藏

12-02 18:54

门头沟学院算法工程师

可惜我才大三。。。

算法实习了三个多月，第一次做了NLP大模型相关的业务，很有成就感。360真的超好，实习期间完整的做了两个项目，刚开始的前几天配环境熟悉业务，后面就直接能上手了，感谢mentor的信任，愿意把一些实打实的内容让我做，完全没有做一些dirty work可以说是充实的过了三个月，也了解到最近很火的ai方面，前段时间isc上，有在推纳米ai、aigc的一些东西，360也能做出来一些不错的成绩，据说纳米ai多智能体蜂群是全球首个L4级智能体，很牛了。马上要结束这段实习了，蛮舍不得的，360还是蛮多岗能转正的，和我一批入职的哥们，他26届的，现在已经转正了，可惜我才大三。。。

穆冰盈：大三就有大厂核心项目经历，已经赢太多了。

点赞评论收藏

12-18 14:10

百度_算法工程师

百度招实习生啦，简历直达主管，快来投递！

【实习】大模型强化学习基建与算法研发实习生📍 地点： [北京/上海/深圳] ⏱️ 形式： 实习（建议至少 3-6 个月）岗位职责 (Responsibilities)作为大模型基建团队的核心成员，你将参与最前沿的多模态大模型（VLM）后训练体系建设。你将直面大规模强化学习训练中的算法与系统挑战，核心职责包括：多模态工具调用能力建设： 负责多模态模型在 Tool Use / Function Calling 场景下的后训练（Post-training）流程搭建与优化，通过 SFT 及 RL 提升模型对复杂工具的理解与调用准确率。强化学习算法优化： 深入研究并改进主流对齐算法，针对多模态数据特性设计强化学习算法策略，解决奖励稀疏与训练不稳定问题。训练系统基建与性能调优： 参与大规模分布式强化学习训练框架的研发与维护，负责显存优化、通信优化及流水线并行策略调优，提升训练吞吐量与稳定性。前沿技术探索： 跟踪大模型多模态推理的最新论文，并将前沿算法快速复现并落地到内部基建中。任职要求 (Qualifications)学历背景： 计算机、人工智能、数学等相关专业硕士或博士在读，具有扎实的机器学习/深度学习理论基础。代码能力： 精通 Python 编程，熟练使用 PyTorch，具有优秀的代码风格和工程实现能力。算法基础：深入理解 Transformer 架构及 LLM/VLM 基本原理。熟悉强化学习基本理论，理解强化学习算法细节。加分项 (Preferred Qualifications)：工具调用经验： 有 LLM Tool Learning、Agent 或 ReAct 相关的实战经验。基建经验： 熟悉 DeepSpeed, Megatron-LM, vLLM, Ray 等分布式训练/推理框架源码，或有 CUDA 算子优化经验。多模态经验： 熟悉 LLaVA, Qwen-VL 等多模态模型架构。开源/学术： 在顶级会议发表过论文，或在 Hugging Face / GitHub 有高 Star 开源项目贡献。

投递百度等公司6个岗位

点赞评论收藏

12-06 10:10

门头沟学院 Java

27实习腾讯视觉大模型一面

1.实习介绍2.DP和DDP区别3.介绍Qwen-lmaget4.wan2.1、wan2.2、cogvideox.hunyuan的结构差异?你觉得哪个结构更好?5.LORA一般加到哪?rank设置有没有技巧6.人脸编辑模型的数据清洗怎么做的?怎么确保的良品率和误杀率?在什么样的机器上进行的7.你认为决定现在基模能力的方面有哪些?8.Deepspeed的三阶段zero简单介绍一下9.手撕:casual-selfAttention

查看8道真题和解析

点赞评论收藏

招聘动态

出海营销领先企业钛动科技

全站热榜

创作者周榜

正在热议

大模型部署和部署优化全流程，都看过来。

二元分类

检测任务（计算机视觉）

NLP任务

机器翻译/文本生成

语言模型

模型格式转换： 目的：将训练框架模型转为通用或推理专用格式

全站热榜

创作者周榜

模型格式转换：目的：将训练框架模型转为通用或推理专用格式