放弃通用计算?这家硅谷初创把 Llama 3 焊死在晶体管里,推理速度吊打 GPU 10倍!

这绝对是近期最硬核、也最反直觉的 AI 硬件新闻。

在这个满世界都在拿 GPU 算力说事儿,拼命追求大模型通用性和灵活性的时代,多伦多一家成立不到三年的初创公司 Taalas 丢出了一颗深水炸弹:他们选择放弃一切灵活性,把 AI 模型直接硬编码进了芯片物理层。

突破“内存墙”的极端解法搞底层架构的同学都知道,现在的 AI 计算碰到了一个硬边界——内存带宽瓶颈(Memory Wall)。模型越来越庞大,要把几百亿参数在显存和计算单元之间来回搬运,耗费的时间和能耗,早就远超矩阵乘法计算本身了。

Taalas 的破局思路简单粗暴到了极点:既然每次算的东西结构都一样,凭什么还要搬来搬去?直接把权重存在晶体管里不行吗?

他们推出的 HC1 芯片交出了答卷:

  • 0 显存设计:没有 HBM,砍掉复杂的缓存层级。模型的每一个权重直接对应芯片上的特定晶体管,矩阵乘法通过电路的物理连接瞬间完成。
  • 光速推理:运行 Llama 3.1 8B,速度飙到 17000 tokens/秒!作为对比,目前顶配 GPU 的极限大概在 2000 左右,这是足足一个数量级的碾压。
  • 能效怪物:传统 GPU 跑推理动辄上液冷、几十千瓦功耗。HC1 十张卡加起来仅需 2.5 千瓦,纯风冷压制,能效宣称是 GPU 的十倍,制造成本更是降到了传统方案的 1/10。

极致的性能,极致的代价这种设计就像是把现场演奏变成了黑胶唱片——播放极快,但内容彻底锁死。这块芯片出厂的那一刻,它这辈子就只能跑 Llama 3.1 8B。不能微调,不能升级。Meta 明年发 Llama 4?对不起,这块芯片原地变成电子垃圾。

为了对冲这个风险,Taalas 联合台积电搞了一套敏捷流片方案。改两层金属掩膜就能换模型,硬是把定制芯片的周期从一年缩短到了两个月。

明星团队的架构之争这套疯狂方案背后的推手绝非等闲之辈。CEO Ljubisa Bajic 是 Tenstorrent 创始人,COO 和 CTO 也都是前 AMD、Nvidia 的资深架构师巨佬。有意思的是,2022年 Jim Keller 接管 Tenstorrent 后,Ljubisa 选择了离开。Keller 执着于通用的、软件友好的平台,而 Ljubisa 则带着 2.19 亿美元融资走向了彻头彻尾的专用化(ASIC 路线的极致)。

在垂直场景(如语音助手、高频数据清洗)下,这种超低延迟、超低成本的方案极具诱惑力。但面对日新月异的模型迭代,市场真的会为了效率牺牲全部的灵活性吗?

想体验 17000 tokens/秒的“光速”推理?可以去他们的 demo 站感受一下没有延迟的震撼:https://chatjimmy.ai

全部评论

相关推荐

不愿透露姓名的神秘牛友
02-23 21:01
如题,鼠鼠是一位双非28届本科生,前两天看到了关于 Agent 开发的建议,于是决定写一个基于 milvus 的 RAG 项目。原本一切顺利,我配好了SpringBoot下的各种Starter依赖。运行时才反应过来自己提供模型的 api-key 是豆包的而不是 openai 的。没关系,只要我把 EmbeddingModel 实现类换成豆包的就可以用了结果在我查阅资料后发现豆包并没有提供这样的 SpringBootStarter,可我却清晰的记得字节跳动是有的!只不过是 Go 生态的:"github.com/cloudwego/eino-ext/components/embedding/ark"问了豆包才知道,字节跳动并没有为 SpringAI 提供官方 SDK。然后在这一瞬间,我突然崩溃了。我脑海里面想起了很多:我要进大厂,我要进字节跳动,字节跳动是Go优势还是Java优势?豆包说go优势。那我为什么要用Java写?我不是要进字节跳动吗?为什么我一直在用Java写算法,为什么一直在用Spring Boot写?为什么不用Go写算法做项目?我为什么要在Java上浪费时间,最后落得个没有官方sdk的地步?为什么我在做一个项目之前没有做好调研呢?为什么?如果我真的想进字节跳动的话,为什么不去官网了解一个职位的要求?非要一直在Java上使用时间,Java多没用你不知道吗?年前找到实习,技术面是根本没有人问。我学习的那些关于JVM、JUC、Spring Boot的八股!更可笑的是我找的那个实习是写TS的。哈哈,我真是好笑。看到别人双非进了字节,就觉得自己也行,结果连这点事都做不好,时至今日,连方向都选错了了。---PS:鼠鼠已经冷静下来了,现在回想起来,我破防的一大原因更可能是长期积累下来的压力爆发了吧。不然的话开通一个 api 就可以解决的问题,为什么会让我难受一个多小时……当我的迷茫还在,我要不要转 Go 呢?我现在才大二还有很多时间可以学习,要不要转 Go 呢?为了我的”字节梦“?(其实这个梦也挺虚的,更重要的原因是想通过进字节证明自己吧……
l2_akatsuk...:给你个解决方案,sdk说到底也就是对接口进行封装,你把你用到的豆包sdk的方法用Java重写一遍然后调用就行,或者你用rpc或者http再请求一遍也行。后端最重要的永远是解决问题的能力,而不是你会多少技术栈以及你学的是啥语言,我之前学java,但是我去百度实习写的是go。
牛客解忧铺
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务