$catMANUAL||~26 min

DeepSeek V4 上手体验:开源免费的 AI 编程模型,接上 Claude Code 用起来真香

advertisement

DeepSeek V4 上手体验:开源免费的 AI 编程模型,接上 Claude Code 用起来真香

最近搞了一个大活——把 Claude Code 的后端从 Anthropic 换成了 DeepSeek V4。说实话,一开始我是怀疑的,毕竟便宜没好货这个观念根深蒂固。但用了两周之后,我得承认:这玩意儿真的能打。

先说结论:DeepSeek V4 Pro 的编程能力跟 Claude Opus 4.6 一个档次,但价格只有后者的几十分之一。如果你在用 Claude Code、OpenCode 或者 OpenClaw 做 AI 编程,强烈建议试试接 DeepSeek V4,能省不少钱。

DeepSeek V4 是什么

DeepSeek V4 是 DeepSeek 在 2026 年 4 月发布的最新大模型,有两个版本:

  • DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数,性能对标顶级闭源模型
  • DeepSeek-V4-Flash:284B 总参数,13B 激活参数,速度快、价格低

两个模型都支持 1M 上下文窗口,都支持 Thinking(深度推理)和 Non-Thinking(快速响应)两种模式。这个设计很聪明——简单问题用快速模式省 token,复杂问题切到推理模式慢慢想。

最重要的一点:V4 是开源的。权重在 Hugging Face 上可以直接下载。这意味着你可以在本地部署,不用担心数据隐私问题。

价格:便宜到离谱

先看价格,这是最让人心动的部分。

DeepSeek V4 的 API 定价(每百万 token):

  • V4-Flash 输入:$0.14(缓存命中 $0.0028)
  • V4-Flash 输出:$0.28
  • V4-Pro 输入:$0.435(缓存命中 $0.003625)
  • V4-Pro 输出:$0.87

对比一下 Claude Opus 4.7 的价格:输入 $5/M,输出 $25/M。GPT-5.5 也是输入 $5/M,输出 $30/M。

算一下就知道了:V4-Pro 的输入成本大概是 Claude Opus 的 1/11,输出成本是 1/29。V4-Flash 更夸张,输入成本只有 Claude 的 1/35。

用 Claude Code 干活,一天下来 API 费用可能要 $5-10。换成 DeepSeek V4 Pro,同样的活大概 $0.3-0.6。Flash 模式更便宜,可能 $0.1 都不到。

我实测了一下:用 Claude Code + DeepSeek V4 Pro 改了一下午代码,调了大概 50 轮对话,最后账单显示 $0.47。同样的活用 Anthropic 原生 API,至少要 $8-12。

当然,便宜归便宜,关键还得看能力。

性能:真的能打

DeepSeek 官方公布的 benchmark 数据:

  • SWE-bench Verified:V4-Pro 80.6%,V4-Flash 也在 70% 以上
  • LiveCodeBench:V4-Pro 93.5,目前最高
  • HumanEval:90%+ 的代码生成准确率
  • Math/STEM:超越所有开源模型,接近顶级闭源

独立测评机构的数据也差不多。SWE-bench 2026 年 3 月的排行榜上,DeepSeek V4 跟 Claude Sonnet 4.6 并列 76.2%。虽然不是碾压,但考虑到价格差距,这个性价比就离谱了。

我自己用下来的感受:

代码生成:V4-Pro 生成的代码质量很高,尤其是 Python 和 TypeScript。写一个完整的 API 接口,基本一次就能跑通,偶尔需要微调。跟 Claude Sonnet 4.6 比,差距不大,某些场景甚至更好(比如处理中文注释和变量名)。

代码理解:给它一个 500 行的文件让它解释逻辑,V4-Pro 的理解能力跟 Claude 差不多。1M 上下文窗口在这里很有用,可以把整个项目丢进去让它理解。

调试能力:这个是我最看重的。V4-Pro 看报错信息、定位问题的能力相当不错。给它一个 traceback,它能准确指出问题在哪行,怎么修。比 GPT-4 好,跟 Claude 接近。

Agent 能力:DeepSeek 官方说 V4 在 Agent 场景做了专门优化。实测下来,在 Claude Code 里用 V4-Pro 做多步骤的代码修改(比如重构一个模块),表现确实不错,不会像某些模型那样改着改着就迷路了。

怎么接上 Claude Code

这是最实用的部分。配置其实很简单,几分钟搞定。

第一步:注册 DeepSeek API Key

platform.deepseek.com 注册一个账号,创建一个 API Key。新用户好像还有免费额度,够你试几天的。

第二步:配置环境变量

Linux/Mac 用户,在终端里执行:

bash
1
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
2
export ANTHROPIC_AUTH_TOKEN=你的DeepSeek-API-Key
3
export ANTHROPIC_MODEL=deepseek-v4-pro[1m]
4
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro[1m]
5
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro[1m]
6
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
7
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
8
export CLAUDE_CODE_EFFORT_LEVEL=max

Windows 用户用 PowerShell:

powershell
1
$env:ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
2
$env:ANTHROPIC_AUTH_TOKEN="你的DeepSeek-API-Key"
3
$env:ANTHROPIC_MODEL="deepseek-v4-pro[1m]"
4
$env:ANTHROPIC_DEFAULT_OPUS_MODEL="deepseek-v4-pro[1m]"
5
$env:ANTHROPIC_DEFAULT_SONNET_MODEL="deepseek-v4-pro[1m]"
6
$env:ANTHROPIC_DEFAULT_HAIKU_MODEL="deepseek-v4-flash"
7
$env:CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash"
8
$env:CLAUDE_CODE_EFFORT_LEVEL="max"

注意那个 [1m] 后缀,这是指定 1M 上下文窗口。不加的话默认可能是 128K。

第三步:直接用

bash
1
cd 你的项目目录
2
claude

就这么简单。Claude Code 会自动用 DeepSeek V4 作为后端,界面和操作跟原来一模一样。你甚至感觉不到换了模型。

持久化配置

每次开终端都要 export 一遍太烦了。可以写到 .bashrc.zshrc 里:

bash
1
echo 'export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic' >> ~/.bashrc
2
echo 'export ANTHROPIC_AUTH_TOKEN=你的Key' >> ~/.bashrc
3
echo 'export ANTHROPIC_MODEL=deepseek-v4-pro[1m]' >> ~/.bashrc
4
 
5
# ... 其他变量同理
6
source ~/.bashrc

或者用一个脚本切换更方便——想用 Anthropic 原版的时候 source 一个文件,想用 DeepSeek 的时候 source 另一个。

OpenCode 和 OpenClaw 的配置

如果你用的不是 Claude Code,DeepSeek V4 也支持其他 AI 编程工具。

OpenCode

OpenCode 配置更简单:

  1. 安装 OpenCode(版本 >= v1.14.24)
  2. 运行 opencode
  3. 输入 /connect,选择 deepseek provider
  4. 输入 API Key,选择 V4-Pro 模型

完事。OpenCode 的好处是它有 TUI 界面,比 Claude Code 的纯终端体验好看一些。

OpenClaw

OpenClaw 是一个开源的 AI 助手平台,可以连接飞书、微信等。安装后在配置阶段选 DeepSeek 作为 model provider 就行:

bash
1
curl -fsSL https://openclaw.ai/install.sh | bash
2
 
3
# 安装过程中选择 DeepSeek,输入 API Key
4
openclaw dashboard  # 打开 Web UI

V4-Pro vs V4-Flash:怎么选

这两个模型定位不同,用对了才省钱。

V4-Pro 适合:

  • 复杂的代码重构
  • 需要理解整个项目架构的任务
  • 调试复杂的 bug
  • 需要深度推理的算法题
  • Agent 多步骤任务

V4-Flash 适合:

  • 简单的代码补全
  • 写单元测试
  • 解释一段代码
  • 格式转换
  • 快速问答

我的用法是:主力用 V4-Pro,Claude Code 的 subagent 用 V4-Flash。这样既保证了主任务的质量,又省了子任务的钱。

实际上 DeepSeek 官方推荐的配置就是这个思路——ANTHROPIC_MODEL 用 Pro,CLAUDE_CODE_SUBAGENT_MODEL 用 Flash。

Thinking 模式:什么时候用

V4 支持两种推理模式:

  • Non-Thinking:直接输出答案,速度快,token 消耗少
  • Thinking:先"想"一会儿再输出,质量更高,但 token 消耗翻倍

什么时候用 Thinking 模式?我的经验:

  • 简单的代码补全、格式转换 → Non-Thinking
  • 算法题、复杂逻辑推理 → Thinking
  • 多文件重构、架构设计 → Thinking
  • 写文档、解释代码 → Non-Thinking

在 Claude Code 里默认就是 Thinking 模式(通过环境变量设置)。如果你想切回 Non-Thinking,可以改模型名去掉相关配置。

说实话,大部分编程场景 Non-Thinking 就够了。Thinking 模式在数学和算法推理上提升明显,但日常写代码差别不大,反而多花 token。

1M 上下文:真的有用吗

DeepSeek V4 全系列标配 1M 上下文窗口。理论上你可以把一个中等规模的整个项目塞进去。

实际用下来,1M 上下文确实有用,但没有想象中那么神。几个场景:

有用的时候

  • 重构一个跨多个文件的模块,需要同时理解所有相关代码
  • 让模型分析一个大型日志文件
  • 给它整个项目的目录结构和关键文件,让它做架构建议

没那么有用的时候

  • 大部分日常编程任务,128K 就够了
  • 上下文太长反而可能让模型"迷路"
  • token 消耗会大幅增加

建议:默认用 1M(反正不额外收费),但不要主动把无关文件塞进去。上下文越大,模型处理越慢,质量也不一定更高。

实际踩坑记录

用了两周,遇到几个坑,分享一下:

坑一:偶尔不认中文变量名

V4-Pro 大部分情况下处理中文没问题,但偶尔会把中文变量名搞混。比如你让它改一个叫 用户列表 的变量,它可能自己造一个新的 user_list,而不是改原来的。

解决办法:变量名还是用英文吧,中文注释没问题。

坑二:超长上下文时偶尔丢指令

当上下文接近 1M 的时候(比如前面对话了几十轮),偶尔会出现"忘记"前面指令的情况。这应该是所有长上下文模型的通病,不只是 DeepSeek。

解决办法:关键指令在最新一条消息里重复一下,或者开新对话。

坑三:API 偶尔超时

DeepSeek 的 API 偶尔会超时,尤其是 Thinking 模式下处理复杂问题的时候。频率大概 20 次里遇到 1-2 次。

解决办法:Claude Code 有自动重试机制,大部分情况下等一会儿就好了。如果频繁超时,可以切到 Non-Thinking 模式试试。

坑四:旧模型名称即将废弃

DeepSeek 官方说了,deepseek-chatdeepseek-reasoner 这两个旧模型名会在 2026 年 7 月 24 日下线。如果你之前用的是这两个名字,记得改成 deepseek-v4-prodeepseek-v4-flash

跟其他模型的对比

简单说说我的使用体验对比:

  • vs Claude Opus 4.6/4.7:Claude 在复杂推理和长对话一致性上还是略胜一筹,但差距已经很小了。考虑到价格差 20-30 倍,日常编程任务用 DeepSeek 完全够。
  • vs GPT-5.5:GPT-5.5 在通用能力上可能更强,但在纯编程任务上 V4-Pro 不输。价格也是碾压。
  • vs Gemini 3 Pro:Gemini 的长上下文处理能力也很强,但编程任务上 V4-Pro 更稳定。
  • vs 本地部署的 Llama/Qwen:本地部署的模型在编程能力上跟 V4-Pro 差距还是很大,除非你有顶级显卡跑 70B+ 的模型。

我的推荐配置

折腾了两周,我现在日常的配置是这样的:

  • 主力模型:DeepSeek V4-Pro(通过 Claude Code)
  • 子任务模型:DeepSeek V4-Flash
  • 上下文:1M(默认)
  • 推理模式:Thinking(默认)
  • 月均 API 费用:$5-8(之前用 Anthropic 是 $80-120)

省下来的钱够我吃好几顿火锅了。

当然,遇到特别复杂的任务(比如大型项目架构设计、复杂的多文件重构),我还是会切回 Anthropic 原版 Claude。但这种场景大概只占 10%,90% 的日常编程用 DeepSeek V4 完全没问题。

一些实用建议

  1. 先试几天再决定:DeepSeek 新用户有免费额度,够你用几天的。先用 V4-Pro 跑几个真实项目,感受一下质量再决定要不要全量切换。

  2. 准备一个切换脚本:写两个 shell 脚本,一个 source 到 Anthropic,一个 source 到 DeepSeek。遇到 DeepSeek 搞不定的任务,随时切回去。

  3. 注意 token 消耗:虽然便宜,但 1M 上下文 + Thinking 模式下 token 消耗还是挺大的。建议在 DeepSeek 控制台设置一个消费上限,别一不小心跑超了。

  4. 关注模型更新:DeepSeek 迭代很快,V4 之后可能还有 V4.1、V4.2。关注他们的官方文档和 GitHub,及时更新模型名。

  5. 不要用旧模型名deepseek-chatdeepseek-reasoner 7 月就下线了,现在就开始用 deepseek-v4-prodeepseek-v4-flash

技术架构:为什么这么便宜还能这么强

DeepSeek V4 便宜是有原因的,不是靠亏钱补贴。

核心是 MoE(Mixture of Experts)架构。V4-Pro 虽然有 1.6T 总参数,但每次推理只激活 49B。这意味着实际计算量远小于同参数量的密集模型。打个比方:一个公司有 1000 个员工,但每次只需要 30 个人干活,工资成本自然低。

另一个创新是 DSA(DeepSeek Sparse Attention)。传统的 Transformer 注意力机制是 O(n²) 的复杂度,上下文越长计算量爆炸式增长。DSA 用了 token-wise 压缩 + 稀疏注意力的组合,把长上下文的计算成本大幅降下来。这就是为什么 V4 能把 1M 上下文作为默认配置,而其他家还在为 128K 收高价。

训练数据和方法也有讲究。DeepSeek 在代码数据上做了大量专门的训练和 RLHF,这也是为什么它在编程任务上特别强。官方说 V4 的 Agent 能力是专门调过的——不是简单地把通用模型拿来跑代码,而是在训练阶段就针对 Agent 场景做了优化。

这些技术加在一起,才有了"便宜又好用"的结果。不是魔法,是工程。

真实场景测试:我拿它干了什么

光说 benchmark 数字没意思,说说我实际用 V4-Pro 干了哪些活。

场景一:重构一个 Next.js API 路由

项目里有一个 800 行的 API 路由文件,需要拆分成多个模块,加上错误处理和日志。这个活不算特别复杂,但涉及多个文件的协调修改。

用 V4-Pro 大概花了 5 轮对话搞定。它准确理解了原来的逻辑,拆分合理,错误处理也加得到位。唯一的问题是它自作主张加了一个我没要求的 middleware,删掉就好了。

场景二:写一个数据处理脚本

需要从 CSV 文件里读数据,做一些聚合计算,输出到 JSON。典型的 ETL 活。

V4-Pro 一次性生成了完整的脚本,包括命令行参数解析、错误处理、进度条。跑起来直接就用了,没改一行代码。这种标准化的任务它确实很强。

场景三:调试一个内存泄漏

Node.js 服务跑着跑着内存就飙上去了。我把 heap snapshot 的分析结果丢给 V4-Pro,它帮我定位到了一个事件监听器没有正确移除的问题。

这个场景下 V4-Pro 的表现跟 Claude 差不多,都是能指出大概方向,但具体修复还是得自己来。

场景四:写单元测试

给一个已有的工具函数写测试用例。V4-Pro 生成的测试覆盖了正常情况、边界情况和异常情况,质量不错。但有个问题:它生成的测试框架是 Jest,而项目用的是 Vitest。提醒它一次之后就改过来了。

总结下来,V4-Pro 在标准化、有明确目标的任务上表现很好,在需要理解项目特定上下文的任务上偶尔会"自作主张"。总体评价:8/10,日常够用。

本地部署:如果你不想用 API

DeepSeek V4 是开源的,理论上可以本地部署。但说实话,门槛不低。

V4-Pro 有 1.6T 参数,即使量化到 4-bit,也需要至少 800GB 显存。这意味着你需要多张 A100 80GB 或者 H100。普通开发者基本告别本地部署 Pro 版本了。

V4-Flash 倒是可以考虑。284B 参数,4-bit 量化大概需要 150GB 显存。两张 A100 80GB 勉强能跑,但速度会比较慢。

如果你真的想本地部署,推荐用 vLLM 或者 llama.cpp(如果支持的话)。但我的建议是:除非你有数据隐私的硬性要求,否则直接用 API。DeepSeek 的 API 已经够便宜了,自己搭服务器的电费和硬件折旧可能更贵。

API 使用技巧

几个用 DeepSeek API 的小技巧:

1. 善用缓存

DeepSeek 的缓存命中价格比正常价格低 100 倍(V4-Flash 输入:$0.0028 vs $0.14)。如果你有大量重复的 system prompt 或者上下文,缓存能帮你省很多钱。

在 Claude Code 里,每次对话的上下文是连续的,DeepSeek 会自动利用缓存。这也是为什么实际费用比理论计算要低。

2. 控制输出长度

V4-Pro 最大输出 384K token,但大部分任务不需要这么长。在 API 调用时设置合理的 max_tokens,避免模型生成一堆你不需要的内容。

3. 错误处理

DeepSeek API 偶尔会返回 429(限流)或者 503(服务不可用)。建议在代码里加上指数退避重试:

python
1
import time
2
import random
3
 
4
def call_with_retry(func, max_retries=3):
5
    for attempt in range(max_retries):
6
        try:
7
            return func()
8
        except Exception as e:
9
            if attempt == max_retries - 1:
10
                raise
11
            wait = (2 ** attempt) + random.random()
12
            time.sleep(wait)

4. 监控用量

DeepSeek 控制台可以看到每日用量和费用。建议设一个消费告警,超过阈值发邮件提醒。别问我怎么知道的——有一次忘了关 Thinking 模式,一晚上跑了 $3。

常见问题 FAQ

Q:DeepSeek V4 能完全替代 Claude 吗?

大部分场景可以,但不是 100%。Claude 在某些复杂推理、长对话一致性、以及安全对齐上还是有优势。我的建议是两个都留着,简单任务用 DeepSeek 省钱,复杂任务用 Claude 保质量。

Q:数据安全有保障吗?

DeepSeek 是中国公司,如果你处理的是敏感数据(比如用户隐私、商业机密),需要考虑数据合规问题。他们的隐私政策说不会用用户数据训练模型,但具体执行情况我不确定。如果有合规要求,建议用本地部署或者企业版 API。

Q:免费额度有多少?

新用户注册有赠送额度,具体金额可能变化,建议去官网看最新政策。用完之后需要充值,最低充值金额不高。

Q:支持中文编程吗?

支持,而且比 GPT 系列好。DeepSeek 的训练数据里中文比例很高,所以用中文写注释、写 prompt 效果都不错。但变量名还是建议用英文,这个是代码规范问题。

Q:能用在生产环境吗?

可以,但要做好 fallback。建议在关键路径上保留 Anthropic 或 OpenAI 作为备选,DeepSeek 挂了可以自动切换。API 兼容性很好,切换成本低。

写在最后

DeepSeek V4 是我用过的性价比最高的 AI 编程模型。开源、便宜、能力强,三个条件同时满足的,目前就它一个。

如果你现在每个月在 AI 编程 API 上花超过 $20,我建议你试试接 DeepSeek V4。就算最终不全量切换,至少可以在简单任务上用 V4-Flash 省钱,复杂任务再切回 Claude。

后面我打算试试用 V4-Pro 跑一些更复杂的项目,看看它的上限在哪里。有啥问题评论区聊。

  • 本文写于 2026 年 6 月,基于 DeepSeek V4 Preview 版本的实际使用体验。模型能力和定价可能会更新,建议以 DeepSeek 官方文档 为准。*

advertisement

DeepSeek V4 上手体验:开源免费的 AI 编程模型,接上 Claude Code 用起来真香 — AI Hub