大模型部署和部署优化全流程,都看过来。

首先讲为什么写这篇啊,因为现在基本上都是开源模型的,然后大量的公司需要自己的数据和样本,

所以非研究院这种,基本上都是开源模型二开,所以说基本上都是调试出自己的模型,部署在自己的显卡上。

那么这里就有专门的一个岗位,大伙可以去搜,叫模型部署的岗位,不过只有大公司才会有,一般的话,都是顺手全干完的。

比如我hhh,我一个人能顶人家几个,有时候能力越大,干活越多,而不想干活,就要装糖,然后能力越小,

所以说能力越大,能力越小。

ok,正式开始啊,上面讲了为什么要部署自己的模型,

这里我默认,你知道有ollma这个种东西,也默认你已经下载好了模型,有自己的显卡。

比如说你下载了个各方面都很好的,自我感觉良好的模型,现在要看他能不能用了,一般来说就是,模型的数值验证。

这里汇总了机器学习中常见的评估指标分类:

二元分类

Accuracy(准确率):正确预测的比例

Precision(精确率/查准率):预测为正的样本中实际为正的比例

Recall(召回率/查全率):实际为正的样本中被正确预测的比例

F1 Score:Precision和Recall的调和平均

AUC-ROC:ROC曲线下面积,衡量分类器整体性能

AUC-PR:精确率-召回率曲线下面积(适用于不平衡数据)

检测任务(计算机视觉)

mAP(Mean Average Precision):多个类别AP的平均值

IoU(Intersection over Union):预测框与真实框的交并比

AP(Average Precision):单个类别的平均精确率

P-R Curve:精确率-召回率曲线

NLP任务

机器翻译/文本生成

BLEU:基于n-gram精确率的加权几何平均

ROUGE:基于召回率的评估(ROUGE-N, ROUGE-L等)

METEOR:考虑同义词和词干的标准化评分

CIDEr:专门为图像描述设计的指标

语言模型

Perplexity(困惑度):衡量语言模型预测能力的指标,越低越好

这些随便记一下就行,实际上最后训练完,都要看这些指标,这些个我讲过很多次了,但是训练完之后,一直没讲。

我现在跟你们讲清楚,这个时候一般是模型的格式转化。

模型格式转换: 目的:将训练框架模型转为通用或推理专用格式

比如:

PyTorch->TorchScript / ONNX

TensorFlow->SavedModel / TF Lite / ONNX

Keras->HDF5 / SavedModel

常规而言只有这几种格式,你下来都拿去玩玩,我敢说我的教程基本上没有废话,我个人自身就不听废话,所以只写最简单好懂的

你只需要面试讲得出onnx,HDF5基本上就有了,

然后讲下为什么必须要转化啊:

这个问题我在5月份也提过,没想到大模型现在依旧火爆,因为剩内存和速度,pytorch这种是训练框架,

远不如onnx这种生产引擎消耗少,其次无法发挥出卡的性能,

假设正常有前置对应知识的工程师,他会这么做:导出 → 量化/优化 → 用专用推理引擎部署

通用的话是PyTorch/TensorFlow → ONNX → TensorRT/OpenVINO/ONNX Runtime(这个玩意是加速器,是用来跑onnx文件的,基本上加完速快3倍很正常,调试的好会来到5-8倍,但是我没调出来过-哭泣-)。

然后一般转化完事了优化一下,量化,剪枝,蒸馏。

在下面就是选择推理邀请和部署方式的选择了:

常规的有tensorRT,ONNX Runtime,DeepSpeed-Inference,正常你用onnx这个就行。

这个部署方式内容其实很多,我稍微讲讲,下期就讲这个:

REST API HTTP 接口,最常用,现在主流的是Flask/FastAPI + Gunicorn

还有就是边缘部署可以在设备端直接运行比如TFLite, OpenVINO, NCNN

是不是感觉要长脑子了?还没完呢。

再往后就是封装,监控,日志,CI/CD那一套了。

这些是测开的领域了,我不擅长,我也不讲hhh。

哎呀又写了1600字了,硬件的东西,不同场合的东西我下期再讲了。

#聊聊我眼中的AI#
大模型集合 文章被收录于专栏

这里全放大模型的,需要自取,后面可能没什么空搞这些了。

全部评论

相关推荐

1.你的 Agent 系统Prompt 是怎么设计和迭代的?有没有做过 Prompt 自动优化?当用户提出不完整的请求时,如何补全用户意图的?2.构建 Agent 的时候,遇到过哪些瓶颈?LangChain 的 memory 默认机制在多3.用户并发中怎么做隔离?你是如何保证线程安全的?4.微调 Llama2 你是怎么选择训练样本的?清洗逻辑是什么?你有没有观察到哪些训练样本质量问题对模型行为有很大影响?举例说明。5.DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工?6.你说你服务部署在 vLLM 上,为何选择它?KV-cache 如何帮助推理加速?你自己做过哪些优化?7.假如需要支持 Streaming 输出,但当前服务延迟又超标,你会怎么折中设计?8.多轮对话上下文状态管理是如何做的?如何在高并发场景下保证一致性?9.你做的 Agent 使用了多少个外部工具,在调用链条上如何保障故障容错和超时机制?10.有没有做过工具调用失败后的feedback策略设计?11.训练过程中数据来自用户行为日志,你是如何从这些数据中抽取训练对话的?有没有做过归一化或事件抽象?12.有没有了解过带有时间窗口/偏移限制的对话系统?模型怎么“理解时间”?13.你觉得 Agent 哪些模块最容易在真实业务中出问题?你会如何监控和定位的?
点赞 评论 收藏
分享
【实习】大模型强化学习基建与算法研发实习生📍 地点: [北京/上海/深圳] ⏱️ 形式: 实习(建议至少 3-6 个月)岗位职责 (Responsibilities)作为大模型基建团队的核心成员,你将参与最前沿的多模态大模型(VLM)后训练体系建设。你将直面大规模强化学习训练中的算法与系统挑战,核心职责包括:多模态工具调用能力建设: 负责多模态模型在 Tool Use / Function Calling 场景下的后训练(Post-training)流程搭建与优化,通过 SFT 及 RL 提升模型对复杂工具的理解与调用准确率。强化学习算法优化: 深入研究并改进主流对齐算法,针对多模态数据特性设计强化学习算法策略,解决奖励稀疏与训练不稳定问题。训练系统基建与性能调优: 参与大规模分布式强化学习训练框架的研发与维护,负责显存优化、通信优化及流水线并行策略调优,提升训练吞吐量与稳定性。前沿技术探索: 跟踪大模型多模态推理的最新论文,并将前沿算法快速复现并落地到内部基建中。任职要求 (Qualifications)学历背景: 计算机、人工智能、数学等相关专业硕士或博士在读,具有扎实的机器学习/深度学习理论基础。代码能力: 精通 Python 编程,熟练使用 PyTorch,具有优秀的代码风格和工程实现能力。算法基础:深入理解 Transformer 架构及 LLM/VLM 基本原理。熟悉强化学习基本理论,理解强化学习算法细节。加分项 (Preferred Qualifications):工具调用经验: 有 LLM Tool Learning、Agent 或 ReAct 相关的实战经验。基建经验: 熟悉 DeepSpeed, Megatron-LM, vLLM, Ray 等分布式训练/推理框架源码,或有 CUDA 算子优化经验。多模态经验: 熟悉 LLaVA, Qwen-VL 等多模态模型架构。开源/学术: 在顶级会议发表过论文,或在 Hugging Face / GitHub 有高 Star 开源项目贡献。
投递百度等公司6个岗位
点赞 评论 收藏
分享
评论
4
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务