DeepSeek DSpark 开源了：推理速度提升 85%，这次他们靠软件赢了

今天 Hacker News 上有个帖子挺火的——DeepSeek 开源了他们的推理优化框架 DSpark，号称生成速度提升 60-85%。帖子下面 65 条评论，讨论得很热闹。我花了一下午把论文和相关资料扒了一遍，说说我的理解。

先说结论：这次 DeepSeek 做的事情，不是堆硬件堆出来的，是纯靠软件优化做到的。在大家都在烧钱买 GPU 的时候，这帮人选择了一条不同的路。

DSpark 到底是什么

简单说，DSpark 是一套推理加速框架，核心思路是投机解码（Speculative Decoding）。

什么是投机解码？你可以这样理解：大模型生成 token 的时候，每次只生成一个，然后验证，再生成下一个。这个过程很慢，因为大模型的参数量巨大，每个 token 的生成都要过一遍完整的模型。

投机解码的做法是：先用一个小的"草稿模型"快速生成一堆候选 token，然后让大模型一次性验证这些候选 token。如果草稿模型猜对了（命中率通常很高），大模型就省了很多次推理。

DSpark 的创新在于：它不是简单地套用投机解码，而是专门训练了针对 DeepSeek V4 架构的草稿模型，并且做了一系列工程优化。

用个比喻来解释：想象你在考试。正常的策略是每道题都从头到尾认真做，做完一道再做下一道。投机解码的策略是：先让一个"学渣"快速把答案写出来，然后让"学霸"一次性检查。如果学渣的答案对了（大概率对，因为很多题其实不难），学霸就省了做题的时间。如果错了，学霸再自己做。

这里的"学渣"就是草稿模型，"学霸"就是大模型。草稿模型的参数量通常只有大模型的几十分之一，所以推理速度极快。但它生成的 token 质量不如大模型，所以需要大模型来验证。

关键在于：验证一批 token 的成本和验证一个 token 差不多。这是因为验证是并行的——大模型可以同时处理多个 token，但生成只能一个一个来。所以投机解码的核心价值在于：把多个"串行生成"变成了一个"并行验证"。

论文里提到了几个关键技术：

Lookahead Sparse Attention：一种稀疏注意力机制，大幅降低了内存消耗
定制化草稿模型：针对 V4 的 MoE（混合专家）架构专门训练
多 token 预测替换：DSpark 取代了之前的 MTP-1（Multi-Token Prediction）方案，成为新的生产环境默认配置

论文第 5 节明确说了：DSpark 已经在 DeepSeek-V4-Flash 和 V4-Pro 的生产环境中部署运行。这意味着你之前用 DeepSeek API 感觉到的速度提升，很大一部分就是 DSpark 的功劳。

纯软件优化，不靠堆硬件

这是我觉得最值得关注的点。

看看美国那边的公司都在干什么：OpenAI 在造自己的芯片（Jalapeño 项目），Anthropic 在研究怎么让 Claude Code 别闪屏，Google 在疯狂采购 TPU v6。大家都在硬件上砸钱。

DeepSeek 的做法不一样。他们的母公司是一家量化基金（幻方量化），虽然不差钱，但在芯片采购上确实受到限制——高端 GPU 的出口管制摆在那里。所以他们选择了另一条路：在现有硬件上，通过软件优化榨干每一滴性能。

结果呢？用 HN 上一位用户的话说："All of the optimizations Deepseek have done are in software and it goes down to the PTX assembly level."（DeepSeek 的所有优化都是在软件层面，一直深入到 PTX 汇编级别。）

PTX 是 NVIDIA GPU 的底层指令集。直接在这个层面做优化，说明他们对硬件的理解已经深入到了非常细粒度的程度。这不是调调参数、换个模型架构那么简单的事。

有个细节挺有意思：DSpark 论文里说，在相同系统容量下，DSpark 能实现 57% 到 78% 的单用户生成速度提升。注意"相同系统容量"这个前提——不是加机器，是同样配置的机器，只是换了软件方案。

跟其他推理框架比呢？

你可能会问：vLLM、TensorRT-LLM 这些推理框架不也在做优化吗？DSpark 有什么特别的？

区别在于优化的层次不同。vLLM 主要做的是内存管理优化（PagedAttention），TensorRT-LLM 做的是模型编译优化（算子融合、量化）。这些都是"通用"的优化，不针对特定模型。

DSpark 不一样。它是专门为 DeepSeek V4 的 MoE 架构设计的。MoE 模型的特点是：每次推理只激活一部分参数（专家），所以推理路径是动态的。通用的推理框架很难针对这种动态特性做深度优化，但 DSpark 可以。

打个比方：vLLM 和 TensorRT-LLM 像是通用的高速公路，什么车都能跑。DSpark 像是专门为某种车型设计的赛道，只能跑这种车，但跑得飞快。

这也是为什么 DSpark 不能直接用在其他模型上的原因——它的优化是和 DeepSeek V4 的架构深度绑定的。

为什么开源？不是做慈善

HN 评论区有个讨论很有意思：DeepSeek 为什么选择开源这些技术？

有人说这是"出于必要"——作为挑战者，开源是获取关注和信任的策略。DeepSeek 母公司是做量化交易的，如果不开源，可能根本没人知道他们的模型有多好。开源之后，Z.ai（DeepSeek 的 API 服务）才有了大约 1 亿美元的营收。

也有人说这是中国的"AI 供给侧改革"——通过开源让 AI 模型变成大宗商品，压低整个行业的价格，这样美国 AI 公司的估值泡沫就会被戳破。

不管动机是什么，对开发者来说结果是一样的：你能用更低的价格用到更快的模型。

我个人觉得，开源和商业化并不矛盾。Linux 就是最好的例子——Red Hat 靠开源赚了大钱，MySQL 也是。DeepSeek 开源了推理优化技术，但他们的 API 服务依然有竞争力，因为他们是第一个用上这些技术的。

开源 vs 闭源的差距：没你想的那么大

今天 HN 上还有一篇帖子也很火——Doubleword 的分析文章，标题是"预测：2026 年 12 月 3 日，将有一个前沿开源 LLM 发布"。

这篇文章分析了开源模型和闭源模型之间的差距变化。用的是 Artificial Analysis Intelligence Index（一个综合能力评估指标）。结论是：如果你只看这一个指标，差距在持续缩小，按照趋势线外推，大约在 2026 年 12 月左右会追平。

但作者很诚实地做了更全面的分析——他们看了 Artificial Analysis 的 18 个不同 benchmark，发现情况没那么简单。

在编码能力上，差距确实大幅缩小了——从 15 个月的落后缩短到只有 1-2 个月。但在其他大多数 benchmark 上，差距基本保持稳定，平均大约 5 个月。

这说明什么？开源模型在编程这个特定领域进步飞快，但在其他领域（比如推理、创意写作、科学问题）仍然有明显的差距。DSpark 这种推理优化技术，主要提升的是"生成速度"，而不是"模型能力"。模型本身的能力还是 DeepSeek V4 那个水平，只是跑得更快了。

对开发者来说，这个区别很重要。如果你主要用 AI 写代码，开源方案已经非常能打了。但如果你需要复杂的推理、长链的逻辑推导，闭源模型目前还是有优势。

这里有个背景值得提一下：就在 DSpark 开源的同一天，美国政府宣布将决定谁可以使用 GPT-5.6（OpenAI 的最新模型），Anthropic 的 Mythos 模型也只对"受信任的美国组织"开放。也就是说，最强的闭源模型正在变得越来越"封闭"——不只是技术上不开源，连使用权限都在收紧。

这对开源社区来说反而是一个机会。当闭源模型越来越难用的时候，开源模型的吸引力就更大了。DeepSeek V4 + DSpark 的组合，可能很快就会成为很多开发者的默认选择——不是因为它最好，而是因为它够好、够便宜、而且任何人都能用。

Doubleword 的文章还提到了一个有趣的发现：在编码 benchmark 上，开源模型的追赶速度最快（从 15 个月缩短到 1-2 个月），但在其他领域差距基本没变。这可能跟编码任务的特点有关——代码的正确性很容易验证（编译通过、测试通过），所以开源模型可以通过大量的代码训练数据快速提升。而推理、创意写作这类任务，评判标准更模糊，提升也更难量化。

这个发现对我的启发是：不同任务应该用不同的模型。编程用 DeepSeek，复杂推理用 Claude，日常对话用 Gemini——混搭使用可能是性价比最高的策略。

对普通开发者意味着什么

说了这么多技术细节，落地到实际场景，DSpark 对你有什么影响？

用 DeepSeek API 的人：你已经享受到了 DSpark 的好处了。DeepSeek 之前大幅降价，DSpark 的效率提升是主要原因之一。论文里说了，DSpark 取代 MTP-1 后，系统吞吐量提升显著，这才是他们能降价的底气。

自己部署模型的人：DSpark 开源意味着你可以在自己的硬件上复现类似的优化。不过要注意，DSpark 的草稿模型是专门针对 DeepSeek V4 架构训练的，如果你用的是其他模型（比如 Qwen 或 Llama），不能直接套用，需要自己训练草稿模型。

关心成本的人：我之前做过一个 AI 编程工具的成本对比（那篇文章还在网站上），当时 DeepSeek 的价格就已经比 Claude 和 GPT 便宜很多了。DSpark 之后，这个差距只会更大。

有个 HN 用户分享了自己的使用体验："I've been using DeepSeek v4 pro for a month now in Kilo Code and it's great. Fast, reliable, large context window and cheap as... Did 1.5B tokens this month and cost me 40usd." 一个月 15 亿 token，花了 40 美元。如果用 Claude，这个价格可能只够跑个零头。

另一个用户更夸张："I have been heavily using DeepSeek V4 Pro at Max for a month now and I would say it is 100x cheaper. If I pay for Claude I will hit that limit so fast I am always waiting 5 hours." 他说用 Claude 的话，5 小时就触到限额了，得等。用 DeepSeek 则完全没有这个问题。

还有人提到了一个有意思的细节："Presumably this has been in production for a while, and is one of the reasons they were able to dramatically lower prices a month ago?" 确实，DSpark 论文证实了这一点——它在 V4 预览版发布两周后就上线了。所以一个月前 DeepSeek 的大幅降价，DSpark 的效率提升是关键原因之一。

不过也有人指出了风险："I seriously am far from fear mongering and doomsday mentality, but I just can't see how OpenAI and Anthropic can have a successful IPO if the quality gap between the free and paid continues to narrow like that..." 这话不是没道理。当开源模型"够用"的时候，付费模型的护城河就只剩"最顶级的能力"了。而需要最顶级能力的用户，毕竟是少数。

DSpark 的技术细节（稍微深入一点）

论文里有一些技术细节值得说说。

草稿模型的设计：DSpark 训练了专门的草稿模型（draft model），这些模型比主模型小很多，但针对 DeepSeek V4 的 MoE 架构做了优化。草稿模型的任务很简单：快速预测接下来几个 token，让主模型验证。

稀疏注意力：Lookahead Sparse Attention 是一个关键创新。传统注意力机制的内存消耗是 O(n²)，也就是序列长度的平方。DSpark 用稀疏的方式降低了这个开销，让它能处理更长的上下文。

生产环境验证：论文第 5.1 节明确说："The DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro." 第 5.4 节补充："MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release."

翻译一下：DSpark 在 V4 预览版发布两周后就上线了，之前的 MTP-1 方案已经被淘汰。这不是一个实验性的技术，是已经跑在生产环境里的成熟方案。

推理效率对比：论文里的数据是，在匹配的系统配置下，DSpark 实现了 57%-78% 的单用户生成速度提升。如果你看整体吞吐量（throughput），提升更明显，因为 DSpark 能在同样的硬件上服务更多并发用户。

美国公司的反应

说到这里，不得不提一下美国 AI 公司的处境。

OpenAI 刚发布了 GPT-5.6 Sol，定价是 $5 输入 / $30 输出（每百万 token）。DeepSeek V4 Pro 的价格大约是 OpenAI 的 1/4 到 1/5。现在 DSpark 还能再提速 85%，这意味着 DeepSeek 在保持低价的同时，速度也追上来了。

而且 OpenAI 还有一个问题：GPT-5.6 现在不是想用就能用的。美国政府要求 OpenAI 先让"受信任的合作伙伴"试用，然后才逐步开放。这意味着很多开发者可能要等几周甚至几个月才能用上最新的模型。而 DeepSeek V4 + DSpark，现在就能用，价格还便宜。

HN 上有个评论很尖锐："These companies providing tokens, whether SOTA or not, that want to IPO are so fucked as time goes on."（这些想要 IPO 的 AI 公司，随着时间推移，处境会越来越糟。）

说得有点夸张，但道理是对的。当开源模型"足够好"的时候，闭源模型的溢价就很难维持了。DSpark 这种开源的推理优化技术，加速了这个过程。

Anthropic 的处境可能比 OpenAI 更尴尬。Claude Code 用了几个月，终端闪烁的 bug 花了几个月才修好——有人在 HN 上吐槽说，这个问题的根源是他们不停地把整个聊天历史重新输出到终端。相比之下，DeepSeek 的工程师在 PTX 汇编层面做优化。方向不一样。

当然，说"美国公司不行了"也太绝对了。GPT-5.6 Sol 的能力确实很强，特别是在网络安全和生物信息学方面。但问题是：这些顶级能力有多少人真正需要？大部分开发者用 AI 做的事情，用 DeepSeek V4 完全够用了。

投机解码的未来

DSpark 让我想到了一个更大的趋势：投机解码可能会成为标配。

现在大模型推理的主要瓶颈不是计算能力，而是内存带宽。GPU 的算力增长很快，但内存带宽的增长跟不上。投机解码本质上是一种"用计算换带宽"的策略——通过小模型的额外计算，减少大模型的内存访问次数。

HN 上有人说："I see a world soon where there's an extremely wide variety of small models for speculative decoding, unique to use cases, companies, and even individuals."（我预见到未来会有大量专门用于投机解码的小模型，针对不同场景、不同公司、甚至不同个人定制。）

这个判断我觉得挺靠谱。想象一下：你有一个通用的大模型，加上一个针对你代码库训练的草稿模型，草稿模型知道你的代码风格、常用库、命名习惯，所以预测命中率特别高。这样推理速度还能再上一个台阶。

这也是为什么我说 DSpark 的开源很重要——它不只是一个优化方案，它代表了一种思路：通过专门的草稿模型来加速推理。这种思路是可以被其他模型复用的。

本地部署？别急

有些人可能想：DSpark 开源了，那我是不是可以在自己的服务器上跑 DeepSeek V4 + DSpark？

A：理论上可以，但实际上有点复杂。DeepSeek V4 本身就是一个很大的模型（虽然 V4 Pro 用的是 MoE，每次推理只激活部分参数，但总参数量还是很大），你至少需要 2-4 张 A100 或 H100 才能跑起来。而且 DSpark 的草稿模型是独立的模型文件，需要额外加载，这意味着你需要更多的 GPU 内存来同时运行大模型和草稿模型。再加上 DSpark 的优化是针对 DeepSeek V4 的特定架构设计的，如果你用的是其他模型，不能直接套用。具体的部署流程，还需要看 DeepSeek 后续发布的文档和工具。

说实话，对大部分个人开发者来说，直接用 DeepSeek API 可能比自己部署更划算。API 的价格已经很低了（V4 Pro 大约是 Claude Sonnet 的 1/5），而且省去了运维的麻烦。除非你有特殊的数据隐私需求，或者想做深度定制，否则没必要自己折腾。

对中国 AI 的一些观察

最后说点关于中国 AI 生态的观察。

DeepSeek 之所以能在软件优化上做得这么好，一个重要原因是他们被"逼"的。高端 GPU 的出口管制让他们没法像美国公司那样疯狂堆硬件，所以只能在软件上想办法。结果反而催生了一堆创新：MLA（Multi-head Latent Attention）、MoE 架构优化、FP8 训练，现在又加上了 DSpark。

HN 上有人说："Chinese labs are doing the most interesting work in AI right now."（中国实验室现在做的 AI 研究最有意思。）这个评价在 HN 那种社区里出现，说明事情确实在变化。

当然，也有人指出，中国实验室开源是因为他们还是追赶者，开源有助于缩小差距。如果有一天他们真的领先了，态度可能会变。这个说法有一定道理，但我觉得不管动机如何，开源本身就是有价值的。Linux 也不是因为慈善才诞生的。

另外一个细节：DeepSeek 的母公司幻方量化是一家量化基金。这意味着他们开发 AI 的主要目的不是卖 API，而是用 AI 来做交易。API 服务更像是一个"副产品"。这个商业模式让他们不太需要靠 API 赚钱来维持运营，所以在定价上可以更激进。

这跟 OpenAI 的处境形成了鲜明对比。OpenAI 需要靠 API 收入来证明自己的估值（据报道最新估值超过 3000 亿美元），所以它必须维持高价。而 DeepSeek 没有这个包袱，可以更灵活地定价。

有 HN 用户做了一个很尖锐的类比："It reminds me of the flawed solution in scaling servers in 2017 that use memory-intensive technologies by adding even more servers to solve the problem. Rather than doing that, think about which critical parts of your app can be written in a more performant technology." 翻译一下：2017 年的时候，有些公司遇到性能问题就加服务器，而不是优化代码。现在 OpenAI 和 Anthropic 遇到推理效率问题就加 GPU，而不是优化算法。DeepSeek 选择了另一条路。

还有人提到了中国实验室在技术上的实际贡献："Chinese papers and techniques have been very influential and copied by US labs. Multi-head Latent Attention (MLA), Multi-Token prediction, MoE architecture are some of the most famous examples." MLA、MoE 这些技术，确实是中国实验室先做出来或者先大规模应用的。

我的判断

综合来看，DSpark 这件事释放了几个信号：

第一，开源模型在推理效率上已经追平甚至超过了闭源模型。这对所有用 AI 做开发的人来说都是好消息。

第二，软件优化的价值被低估了。大家都在关注模型参数量、训练数据量这些"硬件指标"，但 DSpark 证明了，同样硬件上通过软件优化能有 85% 的速度提升，这个价值不比换新一代 GPU 低。

第三，AI 模型的定价权正在从闭源公司向开源社区转移。当 DeepSeek 能用 1/5 的价格提供 80% 的能力时，大部分用户会选择便宜的那个。

至于"开源模型什么时候能完全追平闭源模型"这个问题，我觉得不用太纠结。对大部分实际应用场景来说，现在的开源模型已经"够好"了。追平只是时间问题，而且可能比很多人想象的要快。

算一笔账

最后算一笔账，让大家直观感受一下 DSpark 带来的成本变化。

假设你是一个重度 AI 编程用户，每天用 AI 辅助写代码 4 小时，平均每小时消耗 50 万 token（这个量对 Claude Code 来说不算多）。

用 Claude Sonnet（Anthropic）：

输入：$3/百万 token，输出：$15/百万 token
每天大约消耗 400 万 token（输入+输出）
每月成本：约 $180-250

用 GPT-5.6 Terra（OpenAI）：

输入：$2.50/百万 token，输出：$15/百万 token
每月成本：约 $150-200

用 DeepSeek V4 Pro（DSpark 加速）：

输入：约 $0.27/百万 token，输出：约 $1.10/百万 token
每月成本：约 $20-30

差距是 7-10 倍。而且 DeepSeek 的速度在 DSpark 之后已经不比 Claude 慢多少了。

当然，这个对比不完全公平——Claude 和 GPT-5.6 在某些任务上确实比 DeepSeek V4 强。但问题是：你有多少任务真的需要那种"顶级能力"？对我来说，可能 90% 的编程任务用 DeepSeek V4 就够了，剩下 10% 需要 Claude 的才用 Claude。这样组合下来，每月成本能省一大半。

后面打算试试在自己的服务器上跑 DSpark 加速过的 DeepSeek V4，到时候再写一篇实战体验。另外 DeepSeek 的论文里还有很多工程细节没有展开讲（比如他们怎么处理 MoE 架构下的专家路由、怎么平衡草稿模型的大小和命中率），后面有时间再深入分析。有啥问题评论区聊。

一个有意思的类比：NSA 的教训

HN 评论区有个故事我觉得特别值得分享。

有个用户提到了 NSA（美国国家安全局）在密码学领域的经历。NSA 雇佣了美国大部分数学博士，按理说应该在密码学上遥遥领先。但到了 90 年代，事实证明他们并没有——著名的 Clipper Chip 的密码被破解了，而且不可能是故意放水的（因为整个 Clipper Chip 的意义就在于它有后门）。

这个用户分析原因说：NSA 的研究员可以读公开发表的论文，但他们不能跟论文作者自由交流，因为保密要求。结果就是，他们可能花几个月研究一个方向，而这个方向学术界早就试过了，只是没公开发表过。如果他们能直接问一句"这个方向行不行"，就能省下几个月的时间。

这个类比放在今天的 AI 领域很有意思。OpenAI、Anthropic 这些闭源公司，虽然有更多资源，但他们的研究成果不能公开发表，不能跟学术社区自由讨论。而 DeepSeek 这些开源实验室，可以把论文发出来，接受全球同行的检验和反馈。

长远来看，公开研究的迭代速度可能比闭门造车更快。这不是因为开源更"高尚"，而是因为科学本身就是一个互动过程。你能从别人的反馈中学到东西，避免重复犯错。

当然，这个类比也不完全准确——NSA 的研究主要是基础科学，而 AI 更偏工程。但核心逻辑是一样的：闭门研究的效率可能不如开放研究。

常见问题

Q：DSpark 可以用在其他模型上吗？

A：不能直接用。DSpark 的草稿模型是专门为 DeepSeek V4 的 MoE 架构训练的。如果你想在其他模型上实现类似的优化，需要自己训练对应的草稿模型。不过投机解码的思路是通用的，很多推理框架（比如 vLLM）也支持投机解码，只是没有 DSpark 针对 V4 那么深度的优化。

Q：DSpark 和之前 DeepSeek 的 MLA（Multi-head Latent Attention）有什么关系？

A：两个不同的优化方向。MLA 优化的是注意力机制的内存效率，让模型能处理更长的上下文。DSpark 优化的是推理速度，通过投机解码减少生成每个 token 所需的时间。两者可以同时使用，互不冲突。

Q：我用 DeepSeek API 的时候，能感受到 DSpark 的效果吗？

A：你已经感受到了。DSpark 在 V4 预览版发布两周后就上线了。如果你最近一个月用过 DeepSeek API，你体验到的速度就已经包含了 DSpark 的加速效果。

Q：DSpark 开源后，其他公司会用吗？

A：不太可能直接用，因为草稿模型是 V4 专用的。但其他公司可以参考 DSpark 的思路，为自己的模型训练专门的草稿模型。投机解码的论文和技术是公开的，DSpark 的贡献在于展示了一个完整的工程实现。

Q：这对 Anthropic 和 OpenAI 的 IPO 有什么影响？

A：这个问题 HN 上讨论得很激烈。有人认为，当开源模型"够好"的时候，闭源公司的估值泡沫就会被戳破。也有人认为，顶级能力（比如 GPT-5.6 Sol 的网络安全能力）仍然有市场。我个人觉得，短期影响有限，但长期来看，AI 模型的定价权确实在向开源社区转移。这对整个行业是好事——竞争会让所有人都变得更好。

Q：DeepSeek 为什么能持续开源？不怕被抄吗？

A：HN 上有个观点很有意思——DeepSeek 的母公司是量化基金，不靠 API 赚钱。他们开源的目的是建立品牌和生态，而不是直接变现。而且他们自己是第一个用上这些技术的，所以即使别人抄了，他们也有先发优势。另外，开源本身也是一种"护城河"——当你的技术被广泛使用，围绕它建立的工具链和社区就成了别人难以复制的壁垒。

本文写于 2026 年 6 月 27 日，基于 DeepSeek DSpark 论文、Doubleword 的分析文章、Hacker News 社区讨论等公开资料。数据截止至发稿时。*