AI infra番外:具身智能

具身智能基本上都是机器人,可以看作是 AI 搭配机器人。而 VLM (Vision Language Model) 就是给这个系统加上了“视觉”。

目前最先进的公司(如宇树科技和大疆)的应用逻辑如下:

宇树 H1 机器人:本质上是 VLM + VLA + 端到端。

流程:输入指令 $\rightarrow$ 拆解指令 $\rightarrow$ 将视觉部分转化为运动轨迹 $\rightarrow$ 最终实现行走和动作。

特斯拉 (Optimus):也在探索端量化(一体机方案)。

愿景:全方位的大模型,实现“一键输入 $\rightarrow$ 处理 $\rightarrow$ 行动反馈”,直接输出指令到电机。

这一部分是具身智能最吃兴趣、也最难的地方:

脱机离线与极小显存:

机器人的大脑通常是脱机离线的,跑在显存极小的小芯片上。

芯片的垂直化差异:

手机芯片:主要负责各种 App 的运行和散热,是通用型的。

机器人/无人机芯片:是专门化的“特种芯片”。内部模块高度集成:图传处理、惯性检测(IMU)、避障。

大疆无人机的工程真相:

定位:最大的客户是民用。因为成本低,才被改装用于军事。

算力瓶颈:内部是嵌入式芯片。无人机的能耗大头在续航(电机动力)和图像处理,芯片本身非常耗能。

VLM 的初级应用:高端机型实现的智能跟随、语义避障,本质上是追踪像素块。

成本与风险:

把几十 GB 的模型压进这种专用芯片,成本极高。调试具身智能非常辛苦,经常调试了很久,芯片突然就烧了。

最后就是vlm和vla了,

1. VLM (视觉语言模型):像素 $\rightarrow$ 语义

视觉编码器 (Vision Encoder):通常采用 ViT 或 SigLIP。

操作:将图片切成多个块(Patches),每个块视为一个 Token。

连接器 (Connector):对齐层,将视觉向量投影到 LLM 的词嵌入空间。

MLP (多层感知机):直接把图片特征转化为文字空间。

Cross-Attention (交叉注意力):文字模型带着问题去照片里面找答案。

LLM 底座 (Backbone):如 Qwen、Llama、DeepSeek。接收视觉 Token,像处理文字一样进行推理。

2. VLA (视觉-语言-动作模型):语义 $\rightarrow$ 控制

在 VLM 上加了控制属性,直接输出动作指令,类似虚拟皮套的映射。

动作分词 (Action Tokenization):

将机械臂的 7 自由度坐标、夹爪张合度等物理参数编码成特定的数字。

预测逻辑:

模型不再预测下一个词,而是像预测下一个单词一样,预测下一个 “动作 Token”。

学到这个程度,你会发现:模型、AI、芯片、具身智能,本质上都是通的。

放一些相关的,这里算是大模型的进阶版了。这个封面是吉米。

全部评论

相关推荐

点赞 评论 收藏
分享
评论
2
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务