DeepSeek V4 上手体验:开源免费的 AI 编程模型,接上 Claude Code 用起来真香
最近搞了一个大活——把 Claude Code 的后端从 Anthropic 换成了 DeepSeek V4。说实话,一开始我是怀疑的,毕竟便宜没好货这个观念根深蒂固。但用了两周之后,我得承认:这玩意儿真的能打。
先说结论:DeepSeek V4 Pro 的编程能力跟 Claude Opus 4.6 一个档次,但价格只有后者的几十分之一。如果你在用 Claude Code、OpenCode 或者 OpenClaw 做 AI 编程,强烈建议试试接 DeepSeek V4,能省不少钱。
DeepSeek V4 是什么
DeepSeek V4 是 DeepSeek 在 2026 年 4 月发布的最新大模型,有两个版本:
- DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数,性能对标顶级闭源模型
- DeepSeek-V4-Flash:284B 总参数,13B 激活参数,速度快、价格低
两个模型都支持 1M 上下文窗口,都支持 Thinking(深度推理)和 Non-Thinking(快速响应)两种模式。这个设计很聪明——简单问题用快速模式省 token,复杂问题切到推理模式慢慢想。
最重要的一点:V4 是开源的。权重在 Hugging Face 上可以直接下载。这意味着你可以在本地部署,不用担心数据隐私问题。
价格:便宜到离谱
先看价格,这是最让人心动的部分。
DeepSeek V4 的 API 定价(每百万 token):
- V4-Flash 输入:$0.14(缓存命中 $0.0028)
- V4-Flash 输出:$0.28
- V4-Pro 输入:$0.435(缓存命中 $0.003625)
- V4-Pro 输出:$0.87
对比一下 Claude Opus 4.7 的价格:输入 $5/M,输出 $25/M。GPT-5.5 也是输入 $5/M,输出 $30/M。
算一下就知道了:V4-Pro 的输入成本大概是 Claude Opus 的 1/11,输出成本是 1/29。V4-Flash 更夸张,输入成本只有 Claude 的 1/35。
用 Claude Code 干活,一天下来 API 费用可能要 $5-10。换成 DeepSeek V4 Pro,同样的活大概 $0.3-0.6。Flash 模式更便宜,可能 $0.1 都不到。
我实测了一下:用 Claude Code + DeepSeek V4 Pro 改了一下午代码,调了大概 50 轮对话,最后账单显示 $0.47。同样的活用 Anthropic 原生 API,至少要 $8-12。
当然,便宜归便宜,关键还得看能力。
性能:真的能打
DeepSeek 官方公布的 benchmark 数据:
- SWE-bench Verified:V4-Pro 80.6%,V4-Flash 也在 70% 以上
- LiveCodeBench:V4-Pro 93.5,目前最高
- HumanEval:90%+ 的代码生成准确率
- Math/STEM:超越所有开源模型,接近顶级闭源
独立测评机构的数据也差不多。SWE-bench 2026 年 3 月的排行榜上,DeepSeek V4 跟 Claude Sonnet 4.6 并列 76.2%。虽然不是碾压,但考虑到价格差距,这个性价比就离谱了。
我自己用下来的感受:
代码生成:V4-Pro 生成的代码质量很高,尤其是 Python 和 TypeScript。写一个完整的 API 接口,基本一次就能跑通,偶尔需要微调。跟 Claude Sonnet 4.6 比,差距不大,某些场景甚至更好(比如处理中文注释和变量名)。
代码理解:给它一个 500 行的文件让它解释逻辑,V4-Pro 的理解能力跟 Claude 差不多。1M 上下文窗口在这里很有用,可以把整个项目丢进去让它理解。
调试能力:这个是我最看重的。V4-Pro 看报错信息、定位问题的能力相当不错。给它一个 traceback,它能准确指出问题在哪行,怎么修。比 GPT-4 好,跟 Claude 接近。
Agent 能力:DeepSeek 官方说 V4 在 Agent 场景做了专门优化。实测下来,在 Claude Code 里用 V4-Pro 做多步骤的代码修改(比如重构一个模块),表现确实不错,不会像某些模型那样改着改着就迷路了。
怎么接上 Claude Code
这是最实用的部分。配置其实很简单,几分钟搞定。
第一步:注册 DeepSeek API Key
去 platform.deepseek.com 注册一个账号,创建一个 API Key。新用户好像还有免费额度,够你试几天的。
第二步:配置环境变量
Linux/Mac 用户,在终端里执行:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
| 7 | |
| 8 | |
Windows 用户用 PowerShell:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
| 7 | |
| 8 | |
注意那个 [1m] 后缀,这是指定 1M 上下文窗口。不加的话默认可能是 128K。
第三步:直接用
| 1 | |
| 2 | |
就这么简单。Claude Code 会自动用 DeepSeek V4 作为后端,界面和操作跟原来一模一样。你甚至感觉不到换了模型。
持久化配置
每次开终端都要 export 一遍太烦了。可以写到 .bashrc 或 .zshrc 里:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
或者用一个脚本切换更方便——想用 Anthropic 原版的时候 source 一个文件,想用 DeepSeek 的时候 source 另一个。
OpenCode 和 OpenClaw 的配置
如果你用的不是 Claude Code,DeepSeek V4 也支持其他 AI 编程工具。
OpenCode
OpenCode 配置更简单:
- 安装 OpenCode(版本 >= v1.14.24)
- 运行
opencode - 输入
/connect,选择deepseekprovider - 输入 API Key,选择 V4-Pro 模型
完事。OpenCode 的好处是它有 TUI 界面,比 Claude Code 的纯终端体验好看一些。
OpenClaw
OpenClaw 是一个开源的 AI 助手平台,可以连接飞书、微信等。安装后在配置阶段选 DeepSeek 作为 model provider 就行:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
V4-Pro vs V4-Flash:怎么选
这两个模型定位不同,用对了才省钱。
V4-Pro 适合:
- 复杂的代码重构
- 需要理解整个项目架构的任务
- 调试复杂的 bug
- 需要深度推理的算法题
- Agent 多步骤任务
V4-Flash 适合:
- 简单的代码补全
- 写单元测试
- 解释一段代码
- 格式转换
- 快速问答
我的用法是:主力用 V4-Pro,Claude Code 的 subagent 用 V4-Flash。这样既保证了主任务的质量,又省了子任务的钱。
实际上 DeepSeek 官方推荐的配置就是这个思路——ANTHROPIC_MODEL 用 Pro,CLAUDE_CODE_SUBAGENT_MODEL 用 Flash。
Thinking 模式:什么时候用
V4 支持两种推理模式:
- Non-Thinking:直接输出答案,速度快,token 消耗少
- Thinking:先"想"一会儿再输出,质量更高,但 token 消耗翻倍
什么时候用 Thinking 模式?我的经验:
- 简单的代码补全、格式转换 → Non-Thinking
- 算法题、复杂逻辑推理 → Thinking
- 多文件重构、架构设计 → Thinking
- 写文档、解释代码 → Non-Thinking
在 Claude Code 里默认就是 Thinking 模式(通过环境变量设置)。如果你想切回 Non-Thinking,可以改模型名去掉相关配置。
说实话,大部分编程场景 Non-Thinking 就够了。Thinking 模式在数学和算法推理上提升明显,但日常写代码差别不大,反而多花 token。
1M 上下文:真的有用吗
DeepSeek V4 全系列标配 1M 上下文窗口。理论上你可以把一个中等规模的整个项目塞进去。
实际用下来,1M 上下文确实有用,但没有想象中那么神。几个场景:
有用的时候:
- 重构一个跨多个文件的模块,需要同时理解所有相关代码
- 让模型分析一个大型日志文件
- 给它整个项目的目录结构和关键文件,让它做架构建议
没那么有用的时候:
- 大部分日常编程任务,128K 就够了
- 上下文太长反而可能让模型"迷路"
- token 消耗会大幅增加
建议:默认用 1M(反正不额外收费),但不要主动把无关文件塞进去。上下文越大,模型处理越慢,质量也不一定更高。
实际踩坑记录
用了两周,遇到几个坑,分享一下:
坑一:偶尔不认中文变量名
V4-Pro 大部分情况下处理中文没问题,但偶尔会把中文变量名搞混。比如你让它改一个叫 用户列表 的变量,它可能自己造一个新的 user_list,而不是改原来的。
解决办法:变量名还是用英文吧,中文注释没问题。
坑二:超长上下文时偶尔丢指令
当上下文接近 1M 的时候(比如前面对话了几十轮),偶尔会出现"忘记"前面指令的情况。这应该是所有长上下文模型的通病,不只是 DeepSeek。
解决办法:关键指令在最新一条消息里重复一下,或者开新对话。
坑三:API 偶尔超时
DeepSeek 的 API 偶尔会超时,尤其是 Thinking 模式下处理复杂问题的时候。频率大概 20 次里遇到 1-2 次。
解决办法:Claude Code 有自动重试机制,大部分情况下等一会儿就好了。如果频繁超时,可以切到 Non-Thinking 模式试试。
坑四:旧模型名称即将废弃
DeepSeek 官方说了,deepseek-chat 和 deepseek-reasoner 这两个旧模型名会在 2026 年 7 月 24 日下线。如果你之前用的是这两个名字,记得改成 deepseek-v4-pro 或 deepseek-v4-flash。
跟其他模型的对比
简单说说我的使用体验对比:
- vs Claude Opus 4.6/4.7:Claude 在复杂推理和长对话一致性上还是略胜一筹,但差距已经很小了。考虑到价格差 20-30 倍,日常编程任务用 DeepSeek 完全够。
- vs GPT-5.5:GPT-5.5 在通用能力上可能更强,但在纯编程任务上 V4-Pro 不输。价格也是碾压。
- vs Gemini 3 Pro:Gemini 的长上下文处理能力也很强,但编程任务上 V4-Pro 更稳定。
- vs 本地部署的 Llama/Qwen:本地部署的模型在编程能力上跟 V4-Pro 差距还是很大,除非你有顶级显卡跑 70B+ 的模型。
我的推荐配置
折腾了两周,我现在日常的配置是这样的:
- 主力模型:DeepSeek V4-Pro(通过 Claude Code)
- 子任务模型:DeepSeek V4-Flash
- 上下文:1M(默认)
- 推理模式:Thinking(默认)
- 月均 API 费用:$5-8(之前用 Anthropic 是 $80-120)
省下来的钱够我吃好几顿火锅了。
当然,遇到特别复杂的任务(比如大型项目架构设计、复杂的多文件重构),我还是会切回 Anthropic 原版 Claude。但这种场景大概只占 10%,90% 的日常编程用 DeepSeek V4 完全没问题。
一些实用建议
-
先试几天再决定:DeepSeek 新用户有免费额度,够你用几天的。先用 V4-Pro 跑几个真实项目,感受一下质量再决定要不要全量切换。
-
准备一个切换脚本:写两个 shell 脚本,一个 source 到 Anthropic,一个 source 到 DeepSeek。遇到 DeepSeek 搞不定的任务,随时切回去。
-
注意 token 消耗:虽然便宜,但 1M 上下文 + Thinking 模式下 token 消耗还是挺大的。建议在 DeepSeek 控制台设置一个消费上限,别一不小心跑超了。
-
关注模型更新:DeepSeek 迭代很快,V4 之后可能还有 V4.1、V4.2。关注他们的官方文档和 GitHub,及时更新模型名。
-
不要用旧模型名:
deepseek-chat和deepseek-reasoner7 月就下线了,现在就开始用deepseek-v4-pro和deepseek-v4-flash。
技术架构:为什么这么便宜还能这么强
DeepSeek V4 便宜是有原因的,不是靠亏钱补贴。
核心是 MoE(Mixture of Experts)架构。V4-Pro 虽然有 1.6T 总参数,但每次推理只激活 49B。这意味着实际计算量远小于同参数量的密集模型。打个比方:一个公司有 1000 个员工,但每次只需要 30 个人干活,工资成本自然低。
另一个创新是 DSA(DeepSeek Sparse Attention)。传统的 Transformer 注意力机制是 O(n²) 的复杂度,上下文越长计算量爆炸式增长。DSA 用了 token-wise 压缩 + 稀疏注意力的组合,把长上下文的计算成本大幅降下来。这就是为什么 V4 能把 1M 上下文作为默认配置,而其他家还在为 128K 收高价。
训练数据和方法也有讲究。DeepSeek 在代码数据上做了大量专门的训练和 RLHF,这也是为什么它在编程任务上特别强。官方说 V4 的 Agent 能力是专门调过的——不是简单地把通用模型拿来跑代码,而是在训练阶段就针对 Agent 场景做了优化。
这些技术加在一起,才有了"便宜又好用"的结果。不是魔法,是工程。
真实场景测试:我拿它干了什么
光说 benchmark 数字没意思,说说我实际用 V4-Pro 干了哪些活。
场景一:重构一个 Next.js API 路由
项目里有一个 800 行的 API 路由文件,需要拆分成多个模块,加上错误处理和日志。这个活不算特别复杂,但涉及多个文件的协调修改。
用 V4-Pro 大概花了 5 轮对话搞定。它准确理解了原来的逻辑,拆分合理,错误处理也加得到位。唯一的问题是它自作主张加了一个我没要求的 middleware,删掉就好了。
场景二:写一个数据处理脚本
需要从 CSV 文件里读数据,做一些聚合计算,输出到 JSON。典型的 ETL 活。
V4-Pro 一次性生成了完整的脚本,包括命令行参数解析、错误处理、进度条。跑起来直接就用了,没改一行代码。这种标准化的任务它确实很强。
场景三:调试一个内存泄漏
Node.js 服务跑着跑着内存就飙上去了。我把 heap snapshot 的分析结果丢给 V4-Pro,它帮我定位到了一个事件监听器没有正确移除的问题。
这个场景下 V4-Pro 的表现跟 Claude 差不多,都是能指出大概方向,但具体修复还是得自己来。
场景四:写单元测试
给一个已有的工具函数写测试用例。V4-Pro 生成的测试覆盖了正常情况、边界情况和异常情况,质量不错。但有个问题:它生成的测试框架是 Jest,而项目用的是 Vitest。提醒它一次之后就改过来了。
总结下来,V4-Pro 在标准化、有明确目标的任务上表现很好,在需要理解项目特定上下文的任务上偶尔会"自作主张"。总体评价:8/10,日常够用。
本地部署:如果你不想用 API
DeepSeek V4 是开源的,理论上可以本地部署。但说实话,门槛不低。
V4-Pro 有 1.6T 参数,即使量化到 4-bit,也需要至少 800GB 显存。这意味着你需要多张 A100 80GB 或者 H100。普通开发者基本告别本地部署 Pro 版本了。
V4-Flash 倒是可以考虑。284B 参数,4-bit 量化大概需要 150GB 显存。两张 A100 80GB 勉强能跑,但速度会比较慢。
如果你真的想本地部署,推荐用 vLLM 或者 llama.cpp(如果支持的话)。但我的建议是:除非你有数据隐私的硬性要求,否则直接用 API。DeepSeek 的 API 已经够便宜了,自己搭服务器的电费和硬件折旧可能更贵。
API 使用技巧
几个用 DeepSeek API 的小技巧:
1. 善用缓存
DeepSeek 的缓存命中价格比正常价格低 100 倍(V4-Flash 输入:$0.0028 vs $0.14)。如果你有大量重复的 system prompt 或者上下文,缓存能帮你省很多钱。
在 Claude Code 里,每次对话的上下文是连续的,DeepSeek 会自动利用缓存。这也是为什么实际费用比理论计算要低。
2. 控制输出长度
V4-Pro 最大输出 384K token,但大部分任务不需要这么长。在 API 调用时设置合理的 max_tokens,避免模型生成一堆你不需要的内容。
3. 错误处理
DeepSeek API 偶尔会返回 429(限流)或者 503(服务不可用)。建议在代码里加上指数退避重试:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
| 7 | |
| 8 | |
| 9 | |
| 10 | |
| 11 | |
| 12 | |
4. 监控用量
DeepSeek 控制台可以看到每日用量和费用。建议设一个消费告警,超过阈值发邮件提醒。别问我怎么知道的——有一次忘了关 Thinking 模式,一晚上跑了 $3。
常见问题 FAQ
Q:DeepSeek V4 能完全替代 Claude 吗?
大部分场景可以,但不是 100%。Claude 在某些复杂推理、长对话一致性、以及安全对齐上还是有优势。我的建议是两个都留着,简单任务用 DeepSeek 省钱,复杂任务用 Claude 保质量。
Q:数据安全有保障吗?
DeepSeek 是中国公司,如果你处理的是敏感数据(比如用户隐私、商业机密),需要考虑数据合规问题。他们的隐私政策说不会用用户数据训练模型,但具体执行情况我不确定。如果有合规要求,建议用本地部署或者企业版 API。
Q:免费额度有多少?
新用户注册有赠送额度,具体金额可能变化,建议去官网看最新政策。用完之后需要充值,最低充值金额不高。
Q:支持中文编程吗?
支持,而且比 GPT 系列好。DeepSeek 的训练数据里中文比例很高,所以用中文写注释、写 prompt 效果都不错。但变量名还是建议用英文,这个是代码规范问题。
Q:能用在生产环境吗?
可以,但要做好 fallback。建议在关键路径上保留 Anthropic 或 OpenAI 作为备选,DeepSeek 挂了可以自动切换。API 兼容性很好,切换成本低。
写在最后
DeepSeek V4 是我用过的性价比最高的 AI 编程模型。开源、便宜、能力强,三个条件同时满足的,目前就它一个。
如果你现在每个月在 AI 编程 API 上花超过 $20,我建议你试试接 DeepSeek V4。就算最终不全量切换,至少可以在简单任务上用 V4-Flash 省钱,复杂任务再切回 Claude。
后面我打算试试用 V4-Pro 跑一些更复杂的项目,看看它的上限在哪里。有啥问题评论区聊。
- 本文写于 2026 年 6 月,基于 DeepSeek V4 Preview 版本的实际使用体验。模型能力和定价可能会更新,建议以 DeepSeek 官方文档 为准。*