OpenAI 造芯片了：Jalapeño 背后的全栈野心，开发者该关心什么？

昨天刷 Hacker News 的时候看到一条新闻直接炸了——OpenAI 发布了自己的第一颗定制推理芯片，叫 Jalapeño（对，就是墨西哥辣椒的名字）。这条帖子在 HN 上拿了 700 多分，400 多条评论，直接冲到了首页第一。——OpenAI 发布了自己的第一颗定制推理芯片，叫 Jalapeño（对，就是墨西哥辣椒的意思）。700 多分，400 多条评论，这热度在 HN 上算顶流了。

说实话，第一反应是：OpenAI 也开始造芯片了？这不是 Google、Amazon 干的事吗？仔细看了看资料，发现事情没那么简单。这背后藏着的逻辑，对我们这些用 AI 写代码的人来说，其实挺值得琢磨的。

先说说这颗芯片到底是什么

Jalapeño 是 OpenAI 和 Broadcom 合作搞出来的，专门用来做推理（inference）的定制芯片。注意，不是训练，是推理。训练大模型还是得靠 Nvidia 的 GPU，但推理——也就是我们平时调 API、用 ChatGPT、跑 Codex 的时候——这颗芯片说能比现有方案省电很多。

OpenAI 的说法是"性能功耗比显著优于当前最先进的方案"。但具体数字没给，这个得等后面的技术报告出来才知道。HN 上不少人吐槽说"没数字你吹什么"，我觉得说得有道理，但也理解——芯片还在测试阶段，现在就公布性能数据确实不太合适。

几个关键信息：

从设计到流片（tape-out）只用了 9 个月，这速度在芯片行业算挺快了
用的是 Broadcom 的硅实现和网络技术，包括 Tomahawk 网络芯片
已经在实验室里跑了 GPT-5.3-Codex-Spark 这样的模型
计划 2026 年底开始部署，跟微软等合作伙伴一起搞吉瓦级数据中心

9 个月从设计到流片，HN 上有个芯片 CEO 出来说：如果从 RTL 冻结到流片，这个速度其实挺普通的；但如果从概念设计开始算，那确实很快。真相可能在中间某处。

为什么 OpenAI 要自己造芯片？

这个问题其实才是最关键的。

答案很简单：推理成本太高了。

你想想，ChatGPT 有几亿用户，每天处理的请求数以亿计。每一次请求都要跑一次推理，都要消耗算力。如果能把推理的能耗降低哪怕 20%，一年下来省的钱可能是天文数字。

Greg Brockman（OpenAI 总裁）说得很直白："世界正在走向计算驱动的经济。"Jalapeño 是他们长期全栈基础设施战略的一部分，目标是让计算更充裕，AI 更快、更可靠、更便宜。

有个地方得注意：全栈。

OpenAI 不只是在做模型了。他们从上到下都在搞：

最上层：ChatGPT、Codex 这些产品
中间层：GPT-5 这些模型
底层：芯片架构、内核、内存系统、网络、调度、部署系统

每一层都围绕同一个目标优化：让模型更快、更可靠、更便宜。这就是所谓的"全栈优势"——你控制了整个链条，每一层都可以为整体服务。

OpenAI 在公告里有段话说得挺霸气的："OpenAI 不只是在开发前沿模型或在模型之上构建产品；它还在设计模型之下的基础设施：芯片架构、内核、内存系统、网络、调度、部署系统和产品体验。因为 OpenAI 横跨整个技术栈，每一层都可以围绕同一个目标进行优化。"

说实话，这段话让我想起了苹果。苹果从芯片（M 系列）到操作系统（macOS/iOS）到产品（Mac/iPhone）全部自己控制，所以能把用户体验做到极致。OpenAI 现在在走类似的路——从芯片到模型到产品，全链条打通。

芯片技术细节：为什么推理芯片和 GPU 不一样？

这部分可能有点硬核，但搞明白之后你会发现挺有意思的。

GPU 本质上是通用的并行计算设备。它能跑游戏、能跑深度学习、能跑科学计算，啥都能干。但"啥都能干"也意味着"啥都不是最优的"。

推理芯片不一样。它只需要干一件事：跑 Transformer 模型的推理。这意味着它可以做很多"定制化"的优化。

举个例子：推理的时候，模型权重是不变的（训练好的模型就固定了），变的只是输入数据。GPU 每次计算都要重新从内存里读取权重，这个过程很耗能。但专用推理芯片可以把权重"钉"在离计算单元很近的地方，省掉大量的数据搬运。

HN 上有个评论说得很到位："如果你有一堆矩阵乘法，其中一个矩阵（模型权重）是不变的，你可以大幅加速计算。不需要每次重新获取那个常量矩阵的元素，可以把它们保持在 ALU（计算单元）附近。然后你可能还能检测和忽略稀疏/空块，只需标记一次。"

这就是专用芯片的威力：通过减少数据移动、优化内存访问模式、针对特定精度（比如 INT8 或 FP8）做硬件加速，可以在同样的硅面积上榨出比 GPU 高得多的推理性能。

OpenAI 在公告里说得很明确："Jalapeño 是从零开始为现代 LLM 推理设计的，不是从早期 AI 工作负载改造过来的通用加速器。"这句话直接对标了 Google TPU 的路线——TPU 也是专门为神经网络计算设计的，不是通用 GPU。

还有人提到了一个有趣的问题："模型稳定之后，能不能直接把模型硬编码到芯片的门电路里？"这个想法很疯狂，但如果真能做到，速度提升可能是几个数量级的。当然，现在的大模型参数量动辄几千亿，想硬编码到芯片里根本不现实。但这个思路说明了专用芯片的潜力有多大。

有人反驳说："模型进化得太快了，硬件根本跟不上。芯片出厂那天可能就过时了。"但也有人说："如果某款芯片能把某个特定模型跑得比其他任何方案都快 100 倍，那它就有存在的价值，哪怕不能升级。"两边都有道理。

对比一下其他玩家

OpenAI 不是第一个造 AI 芯片的科技公司。看看前辈们：

Google TPU：最老牌的自研 AI 芯片，已经迭代到第 8 代了。一年一代，节奏很稳。Google 从 2015 年就开始搞 TPU，现在 GCP 上跑模型很多都用 TPU。Broadcom 之前就是 Google TPU 的硬件合作伙伴，现在又接了 OpenAI 的单子。

Amazon Trainium：AWS 的自研训练芯片，2024 年开始大规模部署。目标是给 AWS 客户提供比 GPU 更便宜的训练方案。不过 Trainium 主要面向训练，推理方面 AWS 还在用 Inferentia。

Apple M 系列：虽然主要是给 Mac 和 iPad 用的，但 Neural Engine 的 AI 推理能力也很强。苹果在端侧 AI 上走得很远。

现在 OpenAI 也加入了。有意思的是，负责 OpenAI 硬件项目的 Richard Ho，之前就是 Google TPU 团队的负责人。这人跳槽到 OpenAI 之后，带着经验重新搞了一套，而且还是跟 Broadcom 合作——Broadcom 之前就是 Google TPU 的硬件合作伙伴。

HN 上有人开玩笑说："Broadcom 这波赢麻了，先是 Google TPU，现在又接了 OpenAI 的单子。"

还有人说："OpenAI 说他们从零开始设计，但实际上 Broadcom 做了大部分重活。OpenAI 只需要知道自己想要什么样的芯片，然后让 Broadcom 帮他们实现。"这话不完全对，但也不完全错——芯片的前端设计（架构定义、RTL 代码）大概率是 OpenAI 自己搞的，后端的物理实现（把代码变成真正的硅片设计）交给 Broadcom。

还有个细节：Richard Ho 在 Google 的时候就和 Broadcom 合作过 TPU 的流片。所以这次和 Broadcom 合作搞 Jalapeño，某种程度上是"老搭档重聚"。有经验的人带着已有的合作关系，在新公司重新来过，效率自然比从零开始高得多。

9 个月造芯片，AI 到底帮了多少忙？

OpenAI 在公告里说了一句很有意思的话："OpenAI 的模型加速了芯片的部分设计和优化过程。"

这话一出，HN 的评论区直接吵翻了。

有人说这是纯营销话术，"就像说用了 Microsoft Office 加速开发一样"。也有人说确实有可能——HDL（硬件描述语言，比如 Verilog、VHDL）本身就是编程语言，LLM 写代码的能力用在芯片设计上完全说得通。

有个做 FPGA 的人出来说："我用 Claude 和 GPT-5.5 搞过 FPGA 设计，确实有用。虽然会犯蠢错，但迭代速度快很多。"

另一个做芯片设计的人说："我们公司最近才给团队配了 Claude Code，用来做初步的 debug 和文档生成。"

但也有泼冷水的："LLM 在自己擅长的领域确实能加速，但'加速了多少'和'用了 AI'是两码事。OpenAI 说得很模糊，大概率是不想吹太大。"

有个更有趣的评论："想象一下，OpenAI 加速芯片设计的过程可能只是用 AI 总结了设计过程中交换的邮件，或者让人能问 AI 会议记录里的问题。"虽然是调侃，但也不无可能。

还有人说得很实在："写测试用例这种活，AI 确实能干。芯片验证需要大量的测试向量，这部分人工做很枯燥，让 AI 来生成初稿然后人工审查，效率确实能提高不少。"

有人更直接："OpenAI 在招聘网站上挂了一堆 AI 芯片设计的岗位，这说明他们确实在认真搞。如果只是做做样子，没必要花这个钱。"

但也有人不买账："招聘岗位可能是假的，用来给投资人画饼的。大公司这种事干得多了。"

我的看法是：AI 辅助芯片设计这件事本身是靠谱的，但 OpenAI 说的"9 个月"到底有多少是 AI 的功劳，确实不好说。有可能 AI 帮忙写了大量测试用例和验证代码，这部分确实枯燥且适合自动化。但核心的架构设计，大概率还是 Richard Ho 那帮老手在搞。

这对开发者意味着什么？

你可能会说：我又不造芯片，这跟我有什么关系？

关系大了。

推理成本下降 = API 降价

这可能是最直接的影响。如果 OpenAI 的自研芯片真的能把推理成本打下来，那 API 价格大概率会继续降。现在跑一个 GPT-5 的 API 调用已经比两年前便宜了很多，如果自研芯片全面铺开，成本还能再降一波。

想想看，现在用 Codex 跑一个复杂任务可能要花几美元，如果推理成本降一半，同样的钱能干两倍的活。对我们这些天天用 AI 编程工具的人来说，这是实实在在的好处。

推理延迟降低 = 体验变好

Jalapeño 的设计目标之一是低延迟。OpenAI 在公告里说得很明确："把当今领先 AI 加速器的吞吐量和最快专用推理系统的延迟结合起来。"

Codex 这种需要多步推理的 Agent 产品，每一步都要等推理完成。如果单次推理快了，整体任务完成时间就能缩短。想象一下，Codex 从"等 10 秒出结果"变成"等 3 秒出结果"，体验差别是巨大的。

全栈控制 = 更稳定的服务

自己造芯片意味着 OpenAI 对整个技术栈的控制力更强。以前依赖 Nvidia 的 GPU，如果 Nvidia 产能紧张或者涨价，OpenAI 只能被动接受。现在有了自研方案，至少多了一个选择。

行业趋势：AI 公司都在搞垂直整合

Google 有 TPU，Amazon 有 Trainium，现在 OpenAI 有 Jalapeño。这个趋势很明显：头部 AI 公司都在往"全栈"方向走。

对开发者来说，这意味着未来你用的 AI 服务可能会越来越"封闭"——每家都有自己的硬件、自己的模型、自己的产品。但同时，竞争也会让价格更低、服务更好。

有个评论说得挺精辟："以后 AI 行业可能就像现在的手机行业——苹果有自己的芯片、自己的系统、自己的生态；安卓阵营则是 Qualcomm/MediaTek 提供芯片，Google 提供系统，各厂商做产品。AI 可能也会分化成类似的格局。"

开发者该怎么看待这件事？

说了这么多行业层面的东西，回到我们开发者自身。有几个点得聊聊：

关注 API 定价趋势

如果你在做 AI 相关的产品，推理成本是绕不过去的。现在 OpenAI 的 API 定价已经比两年前降了很多，但这还不是底。自研芯片部署之后，成本还有下降空间。做商业决策的时候，可以把这个因素考虑进去——别按现在的价格做长期规划，因为明年的价格大概率更低。

Agent 产品的延迟会改善

我用 Codex 和 Claude Code 的时候，最头疼的就是等。一个复杂的重构任务，Agent 要跑好几步，每一步都要等推理完成。如果推理延迟能降一半，用户体验的提升不是线性的，而是质变。从"等得烦"变成"可以接受"，这中间的差距比数字看起来大得多。

多模型策略可能成为主流

现在很多人只用一个模型（比如只用 Claude 或只用 GPT），但未来可能会变成"不同任务用不同模型"。轻量级任务用便宜的模型，关键任务用顶级模型。自研芯片让 OpenAI 有能力提供更多的模型选择——因为跑不同模型的成本结构变了。

边缘计算的可能性

HN 上有人提到了一个有趣的方向：如果专用芯片能做到足够小、足够便宜，那 AI 推理就不一定要在云端跑。想象一下，你的 Mac Mini 上插一块推理加速卡，本地跑一个 320 亿参数的模型，延迟几乎为零，还不用联网。虽然现在还不现实，但这个方向是值得关注的。

Broadcom 的角色：闷声发大财

这里特别说一下 Broadcom，因为这家公司在 AI 芯片领域的存在感其实比大多数人想象的要强得多。

Broadcom 不是那种天天上头条的公司，但它是全球最大的 ASIC 设计服务公司之一。Google 的 TPU 是 Broadcom 帮忙搞的，现在 OpenAI 的 Jalapeño 也是。HN 上有人说："Broadcom 在 ASIC 设计领域的地位，就像 TSMC 在代工领域的地位——你可能没听过它，但它无处不在。"

更重要的是，Broadcom 有 TSMC 的产能分配协议。造芯片不只是设计出来就行，还得有工厂给你生产。TSMC 的产能是全球最紧张的资源之一，没有关系你根本排不上号。Broadcom 帮 OpenAI 解决了这个后顾之忧。

还有人提到，Broadcom 最近收购了 VMware 和 Symantec，手里有大量的企业软件业务带来的现金流。这些钱可以用来补贴硬件业务的扩张。"硬件行业的人比软件行业的人更狠更卷"，有个评论这么说，我觉得挺有道理的。

有个评论讲了 Broadcom 的发家史，挺有意思的：Broadcom 在 2010 年代末期通过收购 CA Technologies、Symantec、VMware 等公司，在企业软件和网络安全领域建立了很强的业务。这些业务带来的现金流，在硬件还不那么"热"的时候，补贴了他们的芯片设计业务。现在 AI 火了，这些积累都派上了用场。HN 上还有人说："Broadcom 能拿到 TSMC 的产能，不只是因为有钱，还因为他们在行业里的人脉和信誉。芯片行业很大程度上是靠关系运转的。"

一些有意思的讨论

HN 评论区有几个讨论点我觉得挺有价值的：

芯片会不会过时？

有人提出：芯片从设计到部署可能要一两年，但模型进步的速度比芯片快多了。等你芯片量产了，模型可能已经换代了，你的芯片还能用吗？

这个担心有道理。但反过来说，模型再怎么进化，总得有硬件来跑。而且如果芯片是专门为推理优化的，只要推理的基本范式不变（还是 Transformer、还是矩阵乘法），芯片就不会完全过时。

有个人说得挺有道理："模型必须跑在什么东西上，不然就是废物。它们不能跑在未来的硬件上，人们今天就想用模型。所以，如果硬件出厂那天就过时了，我们用的都是过时硬件，没有替代品。"

还有人从投资角度分析："如果你是数据中心运营商，你敢不敢花几十亿美元部署一种可能两年后就过时的硬件？"这个问题很尖锐。但现实是，数据中心的硬件本来就有折旧周期，GPU 也是三到五年一换。专用芯片如果能在服役期间带来足够的成本节省，那投资就是值得的。

有人提出了一个更实际的场景："如果你能造出一块芯片，跑某个 320 亿参数的模型比其他任何方案都快 100 倍，哪怕它不能升级，我也会买。速度快本身就是一种质量。"

跟 Nvidia 的竞争

Nvidia 今年晚些时候要出 Vera Rubin，预计推理能效比 Blackwell 提升 10 倍。OpenAI 的 Jalapeño 到 2026 年底部署的时候，面对的可能是 Vera Rubin 甚至更下一代的产品。

有个评论说得挺尖锐："OpenAI 应该专注模型，把造芯片的事留给专业公司。等他们盈利了再搞这些也不迟。"

但也有反驳的："如果不自己造芯片，就永远被 Nvidia 卡脖子。Google 10 年前就开始搞 TPU，现在回头看，这个决定太正确了。"

这个争论其实没有标准答案。造芯片是重资产投入，风险很大。但如果不造，就永远受制于人。OpenAI 显然选择了"造"这条路。

硬件和软件的飞轮

OpenAI 在公告里描述了一个很有意思的循环：

更好的基础设施 → 更高的计算效率 → 更好的训练和服务 → 更强的 AI 模型 → 更好的产品 → 更多用户和收入 → 再投资下一代基础设施

这个飞轮一旦转起来，效果是很恐怖的。Google 用 TPU 跑 Gemini，Amazon 用 Trainium 跑自家模型，现在 OpenAI 用 Jalapeño 跑 GPT 系列。每家都在试图建立自己的"基础设施-模型-产品"飞轮。

推理成本的账：到底能省多少？

既然说推理成本会降，那到底能降多少？这个问题其实很难回答，因为 OpenAI 没给具体数字。但我们可以从行业趋势来推测一下。

Google 的 TPU v5e 相比上一代，推理性能提升了 2-3 倍，成本降了约 40%。Amazon 的 Trainium 2 声称比同等 GPU 方案便宜 30-40%。如果 OpenAI 的 Jalapeño 能达到类似的水平，那 API 价格可能还会再降一波。

但这里有个变量：OpenAI 的定价不一定完全跟着成本走。他们现在还在亏钱，降成本之后可能会选择"保持价格不变，多赚点利润"，而不是"降价让利给用户"。这在商业上完全合理，但对我们开发者来说就不是好消息了。

不过竞争会逼着他们降价。Anthropic、Google、xAI 都在抢市场，如果 OpenAI 定价太高，用户会用脚投票。所以长期来看，成本下降最终还是会传导到价格上。

更大的图景：AI 正在重塑整个半导体行业

OpenAI 造芯片这件事，放在更大的背景下看，其实是 AI 对半导体行业的一次深刻冲击。

以前，芯片行业的格局很清晰：Intel/AMD 做通用 CPU，Nvidia 做 GPU，高通做手机芯片，各干各的。但 AI 的出现打破了这个边界。Google 搞 TPU，Amazon 搞 Trainium，微软搞 Maia，现在 OpenAI 搞 Jalapeño——以前不做芯片的公司，现在都在做芯片了。

这意味着什么？意味着芯片行业的客户结构在变。以前是 Nvidia 卖芯片给所有人，现在是每个大客户都想自己造。Nvidia 的护城河（CUDA 生态系统）还能守多久，是个值得思考的问题。

有个 HN 评论说得挺到位："Nvidia 的 GPU 不是为 AI 设计的，它是为图形设计的。只不过碰巧矩阵乘法在 AI 和图形里都很重要，所以 GPU 才成了 AI 的主力。但专用芯片迟早会追上来。"

不过也有人反驳："CUDA 的生态系统不是一朝一夕能替代的。几百万开发者用了十几年 CUDA，所有的框架、工具、库都是围绕 CUDA 建的。就算硬件追上来了，软件生态也得跟上。"

这个争论短期内不会有答案。但趋势是明确的：AI 公司在往"全栈"走，芯片行业在被重新定义。

风险和不确定性

说完好处，也得说说风险。

投入巨大，回报未知

造芯片是烧钱的活。从设计到流片到量产，每个环节都要花大把银子。OpenAI 现在还没盈利，却要投入大量资源搞硬件，这个决策是有争议的。

HN 上有人说得很直接："OpenAI 烧的钱比大多数公司都多，但公开的收入却跟不上。他们可能是在用投资人的钱赌一个不确定的未来。"

第一代产品大概率不完美

Google 的第一代 TPU 性能其实很一般，真正好用是从第三代开始的。OpenAI 的 Jalapeño 是第一代产品，指望它一上来就碾压 Nvidia 是不现实的。

Nvidia 不会坐以待毙

Nvidia 有几十年的 GPU 设计经验，有 CUDA 生态系统，有全球最大的 AI 算力市场份额。OpenAI 想在这个领域分一杯羹，难度可想而知。

但话说回来，Google 当年搞 TPU 的时候也被很多人嘲笑过。现在回头看，那些嘲笑的人脸都被打肿了。

我的判断

说说我的看法。

OpenAI 造芯片这件事，短期影响不大——Jalapeño 要到 2026 年底才部署，而且第一代产品大概率是试水性质。但长期来看，这是一个很明确的信号。

它意味着 AI 行业正在从"软件定义"走向"软硬件协同"。以前大家觉得 AI 就是写模型、调参数，硬件是 Nvidia 的事。现在看来，头部公司已经不满足于只做软件了。

对我们开发者来说，最实际的好处就是：推理成本会继续降，AI 工具会继续变好用。不管是 API 价格、响应速度还是服务稳定性，自研芯片都会带来正向影响。

至于 OpenAI 能不能在芯片领域追上 Google，这个真不好说。Google 搞了 10 年 TPU，经验不是一朝一夕能追上的。但 OpenAI 的优势是他们有最大的推理需求（ChatGPT 的用户量），这意味着他们比任何人都清楚自己需要什么样的芯片。

有句话说得好："当你有几十亿美元的时候，你可以雇芯片人才，跟芯片公司合作。"OpenAI 不需要成为下一个 Intel，他们只需要造出适合自己的芯片就够了。

说说我自己的一个观察。

最近半年，AI 行业的竞争焦点正在从"模型能力"转向"基础设施"。以前大家都在比谁的模型更聪明、Benchmark 分数更高。现在大家开始比谁的成本更低、速度更快、服务更稳定。

这个转变其实挺合理的。模型能力到了一定程度之后，边际提升越来越难，但基础设施的优化空间还很大。OpenAI 造芯片、Google 搞 TPU、Amazon 搞 Trainium，本质上都是在抢"基础设施"这块高地。

对于我们开发者来说，这意味着未来几年可能会看到 AI 服务的价格持续下降，但下降的速度可能会放缓。因为基础设施的优化是有物理极限的——芯片再怎么优化，也不可能无限省电。但在此之前，我们还能享受一波"红利"。

如果你在做 AI 相关的产品，我的建议是：别把所有鸡蛋放在一个篮子里。多关注几家的服务和定价，保持技术栈的灵活性。AI 行业变化太快了，今天的最优选择明天可能就不是了。

后面打算再研究一下各家 AI 芯片的技术路线对比，到时候再写一篇更深入的分析。如果你对这个话题感兴趣，或者有什么想看的角度，评论区告诉我。有啥问题评论区聊。

本文写于 2026 年 6 月 25 日，基于 OpenAI 官方公告和 Hacker News 社区讨论整理。*