DeepSeek DSpark 开源了:推理速度提升 85%,这次他们靠软件赢了
今天 Hacker News 上有个帖子挺火的——DeepSeek 开源了他们的推理优化框架 DSpark,号称生成速度提升 60-85%。帖子下面 65 条评论,讨论得很热闹。我花了一下午把论文和相关资料扒了一遍,说说我的理解。
先说结论:这次 DeepSeek 做的事情,不是堆硬件堆出来的,是纯靠软件优化做到的。在大家都在烧钱买 GPU 的时候,这帮人选择了一条不同的路。
DSpark 到底是什么
简单说,DSpark 是一套推理加速框架,核心思路是投机解码(Speculative Decoding)。
什么是投机解码?你可以这样理解:大模型生成 token 的时候,每次只生成一个,然后验证,再生成下一个。这个过程很慢,因为大模型的参数量巨大,每个 token 的生成都要过一遍完整的模型。
投机解码的做法是:先用一个小的"草稿模型"快速生成一堆候选 token,然后让大模型一次性验证这些候选 token。如果草稿模型猜对了(命中率通常很高),大模型就省了很多次推理。
DSpark 的创新在于:它不是简单地套用投机解码,而是专门训练了针对 DeepSeek V4 架构的草稿模型,并且做了一系列工程优化。
用个比喻来解释:想象你在考试。正常的策略是每道题都从头到尾认真做,做完一道再做下一道。投机解码的策略是:先让一个"学渣"快速把答案写出来,然后让"学霸"一次性检查。如果学渣的答案对了(大概率对,因为很多题其实不难),学霸就省了做题的时间。如果错了,学霸再自己做。
这里的"学渣"就是草稿模型,"学霸"就是大模型。草稿模型的参数量通常只有大模型的几十分之一,所以推理速度极快。但它生成的 token 质量不如大模型,所以需要大模型来验证。
关键在于:验证一批 token 的成本和验证一个 token 差不多。这是因为验证是并行的——大模型可以同时处理多个 token,但生成只能一个一个来。所以投机解码的核心价值在于:把多个"串行生成"变成了一个"并行验证"。
论文里提到了几个关键技术:
- Lookahead Sparse Attention:一种稀疏注意力机制,大幅降低了内存消耗
- 定制化草稿模型:针对 V4 的 MoE(混合专家)架构专门训练
- 多 token 预测替换:DSpark 取代了之前的 MTP-1(Multi-Token Prediction)方案,成为新的生产环境默认配置
论文第 5 节明确说了:DSpark 已经在 DeepSeek-V4-Flash 和 V4-Pro 的生产环境中部署运行。这意味着你之前用 DeepSeek API 感觉到的速度提升,很大一部分就是 DSpark 的功劳。
纯软件优化,不靠堆硬件
这是我觉得最值得关注的点。
看看美国那边的公司都在干什么:OpenAI 在造自己的芯片(Jalapeño 项目),Anthropic 在研究怎么让 Claude Code 别闪屏,Google 在疯狂采购 TPU v6。大家都在硬件上砸钱。
DeepSeek 的做法不一样。他们的母公司是一家量化基金(幻方量化),虽然不差钱,但在芯片采购上确实受到限制——高端 GPU 的出口管制摆在那里。所以他们选择了另一条路:在现有硬件上,通过软件优化榨干每一滴性能。
结果呢?用 HN 上一位用户的话说:"All of the optimizations Deepseek have done are in software and it goes down to the PTX assembly level."(DeepSeek 的所有优化都是在软件层面,一直深入到 PTX 汇编级别。)
PTX 是 NVIDIA GPU 的底层指令集。直接在这个层面做优化,说明他们对硬件的理解已经深入到了非常细粒度的程度。这不是调调参数、换个模型架构那么简单的事。
有个细节挺有意思:DSpark 论文里说,在相同系统容量下,DSpark 能实现 57% 到 78% 的单用户生成速度提升。注意"相同系统容量"这个前提——不是加机器,是同样配置的机器,只是换了软件方案。
跟其他推理框架比呢?
你可能会问:vLLM、TensorRT-LLM 这些推理框架不也在做优化吗?DSpark 有什么特别的?
区别在于优化的层次不同。vLLM 主要做的是内存管理优化(PagedAttention),TensorRT-LLM 做的是模型编译优化(算子融合、量化)。这些都是"通用"的优化,不针对特定模型。
DSpark 不一样。它是专门为 DeepSeek V4 的 MoE 架构设计的。MoE 模型的特点是:每次推理只激活一部分参数(专家),所以推理路径是动态的。通用的推理框架很难针对这种动态特性做深度优化,但 DSpark 可以。
打个比方:vLLM 和 TensorRT-LLM 像是通用的高速公路,什么车都能跑。DSpark 像是专门为某种车型设计的赛道,只能跑这种车,但跑得飞快。
这也是为什么 DSpark 不能直接用在其他模型上的原因——它的优化是和 DeepSeek V4 的架构深度绑定的。
为什么开源?不是做慈善
HN 评论区有个讨论很有意思:DeepSeek 为什么选择开源这些技术?
有人说这是"出于必要"——作为挑战者,开源是获取关注和信任的策略。DeepSeek 母公司是做量化交易的,如果不开源,可能根本没人知道他们的模型有多好。开源之后,Z.ai(DeepSeek 的 API 服务)才有了大约 1 亿美元的营收。
也有人说这是中国的"AI 供给侧改革"——通过开源让 AI 模型变成大宗商品,压低整个行业的价格,这样美国 AI 公司的估值泡沫就会被戳破。
不管动机是什么,对开发者来说结果是一样的:你能用更低的价格用到更快的模型。
我个人觉得,开源和商业化并不矛盾。Linux 就是最好的例子——Red Hat 靠开源赚了大钱,MySQL 也是。DeepSeek 开源了推理优化技术,但他们的 API 服务依然有竞争力,因为他们是第一个用上这些技术的。
开源 vs 闭源的差距:没你想的那么大
今天 HN 上还有一篇帖子也很火——Doubleword 的分析文章,标题是"预测:2026 年 12 月 3 日,将有一个前沿开源 LLM 发布"。
这篇文章分析了开源模型和闭源模型之间的差距变化。用的是 Artificial Analysis Intelligence Index(一个综合能力评估指标)。结论是:如果你只看这一个指标,差距在持续缩小,按照趋势线外推,大约在 2026 年 12 月左右会追平。
但作者很诚实地做了更全面的分析——他们看了 Artificial Analysis 的 18 个不同 benchmark,发现情况没那么简单。
在编码能力上,差距确实大幅缩小了——从 15 个月的落后缩短到只有 1-2 个月。但在其他大多数 benchmark 上,差距基本保持稳定,平均大约 5 个月。
这说明什么?开源模型在编程这个特定领域进步飞快,但在其他领域(比如推理、创意写作、科学问题)仍然有明显的差距。DSpark 这种推理优化技术,主要提升的是"生成速度",而不是"模型能力"。模型本身的能力还是 DeepSeek V4 那个水平,只是跑得更快了。
对开发者来说,这个区别很重要。如果你主要用 AI 写代码,开源方案已经非常能打了。但如果你需要复杂的推理、长链的逻辑推导,闭源模型目前还是有优势。
这里有个背景值得提一下:就在 DSpark 开源的同一天,美国政府宣布将决定谁可以使用 GPT-5.6(OpenAI 的最新模型),Anthropic 的 Mythos 模型也只对"受信任的美国组织"开放。也就是说,最强的闭源模型正在变得越来越"封闭"——不只是技术上不开源,连使用权限都在收紧。
这对开源社区来说反而是一个机会。当闭源模型越来越难用的时候,开源模型的吸引力就更大了。DeepSeek V4 + DSpark 的组合,可能很快就会成为很多开发者的默认选择——不是因为它最好,而是因为它够好、够便宜、而且任何人都能用。
Doubleword 的文章还提到了一个有趣的发现:在编码 benchmark 上,开源模型的追赶速度最快(从 15 个月缩短到 1-2 个月),但在其他领域差距基本没变。这可能跟编码任务的特点有关——代码的正确性很容易验证(编译通过、测试通过),所以开源模型可以通过大量的代码训练数据快速提升。而推理、创意写作这类任务,评判标准更模糊,提升也更难量化。
这个发现对我的启发是:不同任务应该用不同的模型。编程用 DeepSeek,复杂推理用 Claude,日常对话用 Gemini——混搭使用可能是性价比最高的策略。
对普通开发者意味着什么
说了这么多技术细节,落地到实际场景,DSpark 对你有什么影响?
用 DeepSeek API 的人:你已经享受到了 DSpark 的好处了。DeepSeek 之前大幅降价,DSpark 的效率提升是主要原因之一。论文里说了,DSpark 取代 MTP-1 后,系统吞吐量提升显著,这才是他们能降价的底气。
自己部署模型的人:DSpark 开源意味着你可以在自己的硬件上复现类似的优化。不过要注意,DSpark 的草稿模型是专门针对 DeepSeek V4 架构训练的,如果你用的是其他模型(比如 Qwen 或 Llama),不能直接套用,需要自己训练草稿模型。
关心成本的人:我之前做过一个 AI 编程工具的成本对比(那篇文章还在网站上),当时 DeepSeek 的价格就已经比 Claude 和 GPT 便宜很多了。DSpark 之后,这个差距只会更大。
有个 HN 用户分享了自己的使用体验:"I've been using DeepSeek v4 pro for a month now in Kilo Code and it's great. Fast, reliable, large context window and cheap as... Did 1.5B tokens this month and cost me 40usd." 一个月 15 亿 token,花了 40 美元。如果用 Claude,这个价格可能只够跑个零头。
另一个用户更夸张:"I have been heavily using DeepSeek V4 Pro at Max for a month now and I would say it is 100x cheaper. If I pay for Claude I will hit that limit so fast I am always waiting 5 hours." 他说用 Claude 的话,5 小时就触到限额了,得等。用 DeepSeek 则完全没有这个问题。
还有人提到了一个有意思的细节:"Presumably this has been in production for a while, and is one of the reasons they were able to dramatically lower prices a month ago?" 确实,DSpark 论文证实了这一点——它在 V4 预览版发布两周后就上线了。所以一个月前 DeepSeek 的大幅降价,DSpark 的效率提升是关键原因之一。
不过也有人指出了风险:"I seriously am far from fear mongering and doomsday mentality, but I just can't see how OpenAI and Anthropic can have a successful IPO if the quality gap between the free and paid continues to narrow like that..." 这话不是没道理。当开源模型"够用"的时候,付费模型的护城河就只剩"最顶级的能力"了。而需要最顶级能力的用户,毕竟是少数。
DSpark 的技术细节(稍微深入一点)
论文里有一些技术细节值得说说。
草稿模型的设计:DSpark 训练了专门的草稿模型(draft model),这些模型比主模型小很多,但针对 DeepSeek V4 的 MoE 架构做了优化。草稿模型的任务很简单:快速预测接下来几个 token,让主模型验证。
稀疏注意力:Lookahead Sparse Attention 是一个关键创新。传统注意力机制的内存消耗是 O(n²),也就是序列长度的平方。DSpark 用稀疏的方式降低了这个开销,让它能处理更长的上下文。
生产环境验证:论文第 5.1 节明确说:"The DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro." 第 5.4 节补充:"MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release."
翻译一下:DSpark 在 V4 预览版发布两周后就上线了,之前的 MTP-1 方案已经被淘汰。这不是一个实验性的技术,是已经跑在生产环境里的成熟方案。
推理效率对比:论文里的数据是,在匹配的系统配置下,DSpark 实现了 57%-78% 的单用户生成速度提升。如果你看整体吞吐量(throughput),提升更明显,因为 DSpark 能在同样的硬件上服务更多并发用户。
美国公司的反应
说到这里,不得不提一下美国 AI 公司的处境。
OpenAI 刚发布了 GPT-5.6 Sol,定价是 $5 输入 / $30 输出(每百万 token)。DeepSeek V4 Pro 的价格大约是 OpenAI 的 1/4 到 1/5。现在 DSpark 还能再提速 85%,这意味着 DeepSeek 在保持低价的同时,速度也追上来了。
而且 OpenAI 还有一个问题:GPT-5.6 现在不是想用就能用的。美国政府要求 OpenAI 先让"受信任的合作伙伴"试用,然后才逐步开放。这意味着很多开发者可能要等几周甚至几个月才能用上最新的模型。而 DeepSeek V4 + DSpark,现在就能用,价格还便宜。
HN 上有个评论很尖锐:"These companies providing tokens, whether SOTA or not, that want to IPO are so fucked as time goes on."(这些想要 IPO 的 AI 公司,随着时间推移,处境会越来越糟。)
说得有点夸张,但道理是对的。当开源模型"足够好"的时候,闭源模型的溢价就很难维持了。DSpark 这种开源的推理优化技术,加速了这个过程。
Anthropic 的处境可能比 OpenAI 更尴尬。Claude Code 用了几个月,终端闪烁的 bug 花了几个月才修好——有人在 HN 上吐槽说,这个问题的根源是他们不停地把整个聊天历史重新输出到终端。相比之下,DeepSeek 的工程师在 PTX 汇编层面做优化。方向不一样。
当然,说"美国公司不行了"也太绝对了。GPT-5.6 Sol 的能力确实很强,特别是在网络安全和生物信息学方面。但问题是:这些顶级能力有多少人真正需要?大部分开发者用 AI 做的事情,用 DeepSeek V4 完全够用了。
投机解码的未来
DSpark 让我想到了一个更大的趋势:投机解码可能会成为标配。
现在大模型推理的主要瓶颈不是计算能力,而是内存带宽。GPU 的算力增长很快,但内存带宽的增长跟不上。投机解码本质上是一种"用计算换带宽"的策略——通过小模型的额外计算,减少大模型的内存访问次数。
HN 上有人说:"I see a world soon where there's an extremely wide variety of small models for speculative decoding, unique to use cases, companies, and even individuals."(我预见到未来会有大量专门用于投机解码的小模型,针对不同场景、不同公司、甚至不同个人定制。)
这个判断我觉得挺靠谱。想象一下:你有一个通用的大模型,加上一个针对你代码库训练的草稿模型,草稿模型知道你的代码风格、常用库、命名习惯,所以预测命中率特别高。这样推理速度还能再上一个台阶。
这也是为什么我说 DSpark 的开源很重要——它不只是一个优化方案,它代表了一种思路:通过专门的草稿模型来加速推理。这种思路是可以被其他模型复用的。
本地部署?别急
有些人可能想:DSpark 开源了,那我是不是可以在自己的服务器上跑 DeepSeek V4 + DSpark?
A:理论上可以,但实际上有点复杂。DeepSeek V4 本身就是一个很大的模型(虽然 V4 Pro 用的是 MoE,每次推理只激活部分参数,但总参数量还是很大),你至少需要 2-4 张 A100 或 H100 才能跑起来。而且 DSpark 的草稿模型是独立的模型文件,需要额外加载,这意味着你需要更多的 GPU 内存来同时运行大模型和草稿模型。再加上 DSpark 的优化是针对 DeepSeek V4 的特定架构设计的,如果你用的是其他模型,不能直接套用。具体的部署流程,还需要看 DeepSeek 后续发布的文档和工具。
说实话,对大部分个人开发者来说,直接用 DeepSeek API 可能比自己部署更划算。API 的价格已经很低了(V4 Pro 大约是 Claude Sonnet 的 1/5),而且省去了运维的麻烦。除非你有特殊的数据隐私需求,或者想做深度定制,否则没必要自己折腾。
对中国 AI 的一些观察
最后说点关于中国 AI 生态的观察。
DeepSeek 之所以能在软件优化上做得这么好,一个重要原因是他们被"逼"的。高端 GPU 的出口管制让他们没法像美国公司那样疯狂堆硬件,所以只能在软件上想办法。结果反而催生了一堆创新:MLA(Multi-head Latent Attention)、MoE 架构优化、FP8 训练,现在又加上了 DSpark。
HN 上有人说:"Chinese labs are doing the most interesting work in AI right now."(中国实验室现在做的 AI 研究最有意思。)这个评价在 HN 那种社区里出现,说明事情确实在变化。
当然,也有人指出,中国实验室开源是因为他们还是追赶者,开源有助于缩小差距。如果有一天他们真的领先了,态度可能会变。这个说法有一定道理,但我觉得不管动机如何,开源本身就是有价值的。Linux 也不是因为慈善才诞生的。
另外一个细节:DeepSeek 的母公司幻方量化是一家量化基金。这意味着他们开发 AI 的主要目的不是卖 API,而是用 AI 来做交易。API 服务更像是一个"副产品"。这个商业模式让他们不太需要靠 API 赚钱来维持运营,所以在定价上可以更激进。
这跟 OpenAI 的处境形成了鲜明对比。OpenAI 需要靠 API 收入来证明自己的估值(据报道最新估值超过 3000 亿美元),所以它必须维持高价。而 DeepSeek 没有这个包袱,可以更灵活地定价。
有 HN 用户做了一个很尖锐的类比:"It reminds me of the flawed solution in scaling servers in 2017 that use memory-intensive technologies by adding even more servers to solve the problem. Rather than doing that, think about which critical parts of your app can be written in a more performant technology." 翻译一下:2017 年的时候,有些公司遇到性能问题就加服务器,而不是优化代码。现在 OpenAI 和 Anthropic 遇到推理效率问题就加 GPU,而不是优化算法。DeepSeek 选择了另一条路。
还有人提到了中国实验室在技术上的实际贡献:"Chinese papers and techniques have been very influential and copied by US labs. Multi-head Latent Attention (MLA), Multi-Token prediction, MoE architecture are some of the most famous examples." MLA、MoE 这些技术,确实是中国实验室先做出来或者先大规模应用的。
我的判断
综合来看,DSpark 这件事释放了几个信号:
第一,开源模型在推理效率上已经追平甚至超过了闭源模型。这对所有用 AI 做开发的人来说都是好消息。
第二,软件优化的价值被低估了。大家都在关注模型参数量、训练数据量这些"硬件指标",但 DSpark 证明了,同样硬件上通过软件优化能有 85% 的速度提升,这个价值不比换新一代 GPU 低。
第三,AI 模型的定价权正在从闭源公司向开源社区转移。当 DeepSeek 能用 1/5 的价格提供 80% 的能力时,大部分用户会选择便宜的那个。
至于"开源模型什么时候能完全追平闭源模型"这个问题,我觉得不用太纠结。对大部分实际应用场景来说,现在的开源模型已经"够好"了。追平只是时间问题,而且可能比很多人想象的要快。
算一笔账
最后算一笔账,让大家直观感受一下 DSpark 带来的成本变化。
假设你是一个重度 AI 编程用户,每天用 AI 辅助写代码 4 小时,平均每小时消耗 50 万 token(这个量对 Claude Code 来说不算多)。
用 Claude Sonnet(Anthropic):
- 输入:$3/百万 token,输出:$15/百万 token
- 每天大约消耗 400 万 token(输入+输出)
- 每月成本:约 $180-250
用 GPT-5.6 Terra(OpenAI):
- 输入:$2.50/百万 token,输出:$15/百万 token
- 每月成本:约 $150-200
用 DeepSeek V4 Pro(DSpark 加速):
- 输入:约 $0.27/百万 token,输出:约 $1.10/百万 token
- 每月成本:约 $20-30
差距是 7-10 倍。而且 DeepSeek 的速度在 DSpark 之后已经不比 Claude 慢多少了。
当然,这个对比不完全公平——Claude 和 GPT-5.6 在某些任务上确实比 DeepSeek V4 强。但问题是:你有多少任务真的需要那种"顶级能力"?对我来说,可能 90% 的编程任务用 DeepSeek V4 就够了,剩下 10% 需要 Claude 的才用 Claude。这样组合下来,每月成本能省一大半。
后面打算试试在自己的服务器上跑 DSpark 加速过的 DeepSeek V4,到时候再写一篇实战体验。另外 DeepSeek 的论文里还有很多工程细节没有展开讲(比如他们怎么处理 MoE 架构下的专家路由、怎么平衡草稿模型的大小和命中率),后面有时间再深入分析。有啥问题评论区聊。
一个有意思的类比:NSA 的教训
HN 评论区有个故事我觉得特别值得分享。
有个用户提到了 NSA(美国国家安全局)在密码学领域的经历。NSA 雇佣了美国大部分数学博士,按理说应该在密码学上遥遥领先。但到了 90 年代,事实证明他们并没有——著名的 Clipper Chip 的密码被破解了,而且不可能是故意放水的(因为整个 Clipper Chip 的意义就在于它有后门)。
这个用户分析原因说:NSA 的研究员可以读公开发表的论文,但他们不能跟论文作者自由交流,因为保密要求。结果就是,他们可能花几个月研究一个方向,而这个方向学术界早就试过了,只是没公开发表过。如果他们能直接问一句"这个方向行不行",就能省下几个月的时间。
这个类比放在今天的 AI 领域很有意思。OpenAI、Anthropic 这些闭源公司,虽然有更多资源,但他们的研究成果不能公开发表,不能跟学术社区自由讨论。而 DeepSeek 这些开源实验室,可以把论文发出来,接受全球同行的检验和反馈。
长远来看,公开研究的迭代速度可能比闭门造车更快。这不是因为开源更"高尚",而是因为科学本身就是一个互动过程。你能从别人的反馈中学到东西,避免重复犯错。
当然,这个类比也不完全准确——NSA 的研究主要是基础科学,而 AI 更偏工程。但核心逻辑是一样的:闭门研究的效率可能不如开放研究。
常见问题
Q:DSpark 可以用在其他模型上吗?
A:不能直接用。DSpark 的草稿模型是专门为 DeepSeek V4 的 MoE 架构训练的。如果你想在其他模型上实现类似的优化,需要自己训练对应的草稿模型。不过投机解码的思路是通用的,很多推理框架(比如 vLLM)也支持投机解码,只是没有 DSpark 针对 V4 那么深度的优化。
Q:DSpark 和之前 DeepSeek 的 MLA(Multi-head Latent Attention)有什么关系?
A:两个不同的优化方向。MLA 优化的是注意力机制的内存效率,让模型能处理更长的上下文。DSpark 优化的是推理速度,通过投机解码减少生成每个 token 所需的时间。两者可以同时使用,互不冲突。
Q:我用 DeepSeek API 的时候,能感受到 DSpark 的效果吗?
A:你已经感受到了。DSpark 在 V4 预览版发布两周后就上线了。如果你最近一个月用过 DeepSeek API,你体验到的速度就已经包含了 DSpark 的加速效果。
Q:DSpark 开源后,其他公司会用吗?
A:不太可能直接用,因为草稿模型是 V4 专用的。但其他公司可以参考 DSpark 的思路,为自己的模型训练专门的草稿模型。投机解码的论文和技术是公开的,DSpark 的贡献在于展示了一个完整的工程实现。
Q:这对 Anthropic 和 OpenAI 的 IPO 有什么影响?
A:这个问题 HN 上讨论得很激烈。有人认为,当开源模型"够好"的时候,闭源公司的估值泡沫就会被戳破。也有人认为,顶级能力(比如 GPT-5.6 Sol 的网络安全能力)仍然有市场。我个人觉得,短期影响有限,但长期来看,AI 模型的定价权确实在向开源社区转移。这对整个行业是好事——竞争会让所有人都变得更好。
Q:DeepSeek 为什么能持续开源?不怕被抄吗?
A:HN 上有个观点很有意思——DeepSeek 的母公司是量化基金,不靠 API 赚钱。他们开源的目的是建立品牌和生态,而不是直接变现。而且他们自己是第一个用上这些技术的,所以即使别人抄了,他们也有先发优势。另外,开源本身也是一种"护城河"——当你的技术被广泛使用,围绕它建立的工具链和社区就成了别人难以复制的壁垒。
- 本文写于 2026 年 6 月 27 日,基于 DeepSeek DSpark 论文、Doubleword 的分析文章、Hacker News 社区讨论等公开资料。数据截止至发稿时。*