DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

  新智元报道

  编辑:桃子定慧

  DeepSeek V3.1 新版正式上线,上下文 128k,编程实力碾压 Claude 4 Opus,成本低至 1 美元。

  就在昨晚,DeepSeek 官方悄然上线了全新的 V3.1 版本,上下文长度拓展到 128k。

  本次开源的 V3.1 模型拥有 685B 参数,支持多种精度格式,从 BF16 到 FP8。

  综合公开信息和国内大咖 karminski3 的实测,V3.1 此次更新亮点有:

  • 编程能力:表现突出,根据社区使用 Aider 测试数据,V3.1 在开源模型中霸榜。

  • 性能突破:V3.1 在 Aider 编程基准测试中取得 71.6% 高分,超越 Claude Opus 4,同时推理和响应速度更快。

  • 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。

  • 架构创新:线上模型去除「R1」标识,分析称 DeepSeek 未来有望采用「混合架构」。

  • 成本优势:每次完整编程任务仅需 1.01 美元,成本仅为专有系统的六十分之一。

  值得一提的是,官方群中强调拓展至 128K 上下文,此前 V3 版本就已经支持。

  对于这波更新,大家的热情可谓是相当高涨。

  即便还未公布模型卡,DeepSeek V3.1 就已经在 Hugging Face 的趋势榜上排到了第四。

  DeepSeek 粉丝数已破 8 万

  看到这里,网友们更期待 R2 的发布了!

  混合推理,编程击败 Claude 4

  这次最明显的变化是,DeepSeek 在官方 APP 和网页端上,把深度思考(R1)中的「R1」去掉了。

  同时,与 V3-base 相比,DeepSeek V3.1 新增了四个特殊 Token:

  • <|search▁begin|> (id: 128796)

  • <|search▁end|> (id: 128797)

  • (id: 128798)

  • (id: 128799)

  对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

  在编程方面,根据网友曝出的结果,DeepSeek V3.1 在 Aider Polyglot 多语言编程测试中拿下了 71.6% 高分,一举击败了 Claude 4 Opus、DeepSeek R1。

  而且,它的成本仅 1 美元,成为非推理模型中的 SOTA。

  最鲜明的对比,V3.1 编程性能比 Claude 4 高1%,成本要低 68 倍。

  在 SVGBench 基准上,V3.1 实力仅次于 GPT-4.1-mini,远超 DeepSeek R1 的实力。

  在 MMLU 多任务语言理解方面,DeepSeek V3.1 毫不逊色于 GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1 与之有一定的差距。

  一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1 理解力明显提升。

  一手实测

  第一时间,我们对 V3.1 进行了实测,首先是此次模型更新的重点:上下文长度。

  假设对于中文而言,1 个 token ≈ 1–1.3 个汉字,那么这 128K tokens ≈ 100,000–160,000 汉字。

  相当于整本《红楼梦》正文(约 80–100 万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著

  实际测试也很准确,DeepSeek 告诉我们它只能阅读差不多9%,也就是大约十分之一。

  由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

  在 128K 上下文测试中,DeepSeek-V3.1 输出速度相比以往获得较大提升,并且在工程上做了一些优化。

  此次更新,DeepSeek 重点强调了对上下文的支持。

  整个活,给 DeepSeek-V3.1 上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。

  不过最后,差不多只输出了 3000 字左右,模型就停止了输出。

  再来看下推理能力。

  经典的 9.11 和 9.9 比大小问题,两种询问方式都能正确做答。

  这次更新的一大体感还是速度变快了很多。

  最后再来看看编程能力。

  DeepSeek 的上一个模型是 R1-0528,主打的是编程能力。

  看看这次 V3.1 是否有更大的提升。

  最终结果只能说,打个 80 分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

  并且和 R1-0528 的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。

  以下是开启思考模式后的结果,你觉得哪个更好?

  接下来,看看 DeepSeek V3.1 能否复刻出 GPT-5 发布会上的法语学习小程序。

  我们再来让 V3.1 画一个自己的 SVG 自画像,两种效果着实有些抽象。

  参考资料:HYX

  https://weibo.com/2169039837/Q0FC4lmeo

  https://x.com/karminski3/status/1957928641884766314

  https://github.com/johnbean393/SVGBench/

  https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base