如何评价 Deepseek 新发布的 DeepSeek-369IT编程

admin管理员组
文章数量:1027491

如何评价 Deepseek 新发布的 DeepSeek

开门见山：AI 玩转数学的硬核时刻

最近几年，AI 的发展简直像开了挂，大型语言模型早就不是只会写写文章、翻翻语言的小能手了，而是直接冲进了数学这种硬核地带。2025 年 4 月，DeepSeek 放大招，推出了 DeepSeek-Prover-V2-671B，参数高达 6710 亿，专为在 Lean 4 语言里证明数学定理而生。这家伙在 MiniF2F 测试里拿下 88.9% 的通过率，还在 PutnamBench 上搞定了 49 个问题（总共 658 个），在 AI 搞形式化数学推理这块，绝对算得上是大事件。

我搞计算机视觉和 AI 有段时间了，看到这模型真挺兴奋。它不光是秀了一把 AI 在逻辑推理上的肌肉，还可能给数学研究、教学，甚至软件验证带来新花样。当然，它烧的算力不少，证明靠不靠谱也得再掂量掂量。这篇文章，我想从技术的角度聊聊它，看看架构怎么搭的、训练怎么搞的、表现咋样，还有未来能玩出啥花头，希望给有点技术底子的朋友一点灵感。

数学定理证明有多硬核，AI 能插上手吗？

定理证明是个啥

数学定理证明是数学的核心活儿，从公理和已知条件出发，一步步推到新结论。这事儿得逻辑严丝合缝，还得有点灵光一现的感觉。以前，这都是数学家凭脑子和经验慢慢磨出来的，费时费力，所以大家都想着，能不能让 AI 来搭把手。

要是用上 Lean 4 这种形式化证明工具，难度就更上一层楼了。数学家得先把问题从日常语言变成机器能读懂的形式化代码，再写出能跑通的证明。这不光考数学功底，还得懂编程。对 AI 来说，既得抓得住抽象概念，还得理出一串长长的逻辑链子，保证代码不出岔子，真不是件轻松活儿。

AI 能帮啥忙

大型语言模型靠着海量文本和代码喂出来的本事，已经能在数学推理上露两手。不过定理证明可不是猜对答案就行，得给出能验的证明过程。早期的 GPT-3 在自然语言数学题上还能凑合，一到形式化证明就露怯，不是逻辑乱套就是语法崩盘。DeepSeek-Prover-V2-671B 的横空出世可是个大跃进，实力已经能跟一些人类专家过过招了。

模型架构：大而灵活

混合专家的路子

DeepSeek-Prover-V2-671B 是从 DeepSeek-V3-Base 改出来的，用了个叫混合专家（MoE）的架构，总参数有 6710 亿，但实际干活时只调大概 370 亿。这设计把模型拆成了一堆“专家”，每个专家管一块，算起来特别省劲。据说有 256 个专家，每次挑 8 个动态上场，按任务分活儿，既快又不占太多内存。

MoE 这招的好处就是省资源。传统那种密集模型，比如 GPT-4，干活得把所有参数都拉出来跑，而 MoE 这种稀疏激活能省下 80% 的算力，有点像人脑的分工，谁擅长啥就让谁上。这模型能在 2048 个 NVIDIA H800 GPU 上跑得飞起，效率真挺高。

长上下文和大脑力

这模型支持 128,000 token 的上下文长度，比很多同类（比如 GPT-4 的 32,000 token）强多了。定理证明常要连着好多定义和引理，长的上下文很关键。DeepSeek 可能用了多头潜在注意力（MLA），压缩缓存来撑长上下文，还不拖慢速度。

精度和优化

它支持 BF16、FP8、F32 多种精度，FP8 尤其省内存。Hugging Face 上看，它的权重用 safetensors 存着，分了 163 个文件，总共 685 GB，规模大但结构挺模块化。

训练过程：数据加聪明算法

先打基础

DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始，这是个在 14.8 万亿 token 上预训练的模型，数学、代码、Lean 4 都练过一遍，基础很扎实。

自己造数据

从 DeepSeek-Prover-V1.5 的报告看，他们用了不少合成数据。从高中、本科的数学竞赛题（像 AIME、IMO）入手，翻译成 Lean 4 语句，再生成证明，攒了大概 800 万条数据。V2 估计数据更多，或者难度更高了。

微调加强化

预训练后，先用监督微调教它写证明，数据是问题-证明对，重点练 Lean 4 的语法和逻辑。然后用强化学习（RLPAF），让 Lean 4 验证证明，错了就改，慢慢变好。这有点像 AlphaGo，靠反馈优化。

搜索新招

V2 还加了个 RMaxTS，是蒙特卡洛树搜索（MCTS）的变种，鼓励模型多试几种证明路子，比 V1.5 的单线推理强多了。

表现怎么样

测试成绩

它在几个测试里表现不错：

MiniF2F：高中数学题，代数、几何、数论都有，88.9% 通过，比 V1.5 的 63.5% 和 GPT-4 的 23.0% 高不少。
PutnamBench：本科竞赛题，难度大，解决了 49/658 个（7.4%），不算高，但也不容易。
ProverBench：DeepSeek 新出的测试，325 个题，有 AIME 2024、2025 的题，具体成绩没公布，但应该比 V1.5 好。

跟别人比

比起其他证明模型，V2 领先不少。V1.5 在 MiniF2F 是 63.5%，ProofNet 25.3%，GPT-4 在 FIMO 上一个都没证明。V2 的进步靠的是模型大、数据多、搜索聪明。

能干啥，有啥影响

帮数学家干活

它能当数学家的助手，验证证明、提思路，甚至找新定理。比如验证几何定理，省时省力。在 Lean 4 里还能跟证明库联动，加速研究。

教学生

教育上，它能教学生形式化推理，生成例子或检查作业。ProverBench 的竞赛题说明它很适合 AIME、IMO 备考。

验软件

证明技术还能用在软件验证上，检查操作系统、加密算法、智能合约，确保没问题，尤其在航空、医疗这些地方很重要。

推 AI 研究

它的训练法（RLPAF、RMaxTS）也能用到别的推理任务，像软件调试、法律推理、科学验证。开源（权重在 Hugging Face）也方便大家研究。

挑战和未来

计算量大

6710 亿参数得用 2048 个 H800 GPU 训练，推理也得大集群，一般人用不起。以后可能得压缩模型或优化推理。

证明靠不靠得住

AI 的证明有时会出错，实际用还得人工或工具再查。未来可以加强错误检查，或者人机合作。

数据咋来的

V1.5 用 800 万条数据，V2 的细节没说全。公开数据对研究很重要，DeepSeek 可以多透露点。

更高难度

现在高中、本科题做得好，但研究生或前沿数学（像代数几何）还没测。以后可以试试更难的，或跨到物理证明。

开源和地缘因素

DeepSeek 受美国管制影响，可能缺GPU硬件，但开源策略让全球研究者受益。未来得平衡开源和赚钱。

最后说两句

DeepSeek-Prover-V2-671B 是 AI 证明数学定理的一个大步。它的 MoE 架构、智能训练和开源让人眼前一亮，在 MiniF2F、PutnamBench 上成绩亮眼。从研究到教学到验证，潜力很大。不过计算量、可靠性、数据透明还得改进。

我挺看好它的未来。它把数学和 AI 结合得更紧，也给推理任务立了个标杆。以后算力强了，方法更好了，这种模型可能会改变我们探索知识的方式。你觉得 AI 证明定理会怎么影响数学研究？欢迎聊聊！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-05-02，如有侵权请联系 cloudcommunity@tencent 删除开源模型数据数学DeepSeek

如何评价 Deepseek 新发布的 DeepSeek

开门见山：AI 玩转数学的硬核时刻

数学定理证明有多硬核，AI 能插上手吗？

定理证明是个啥

AI 能帮啥忙

模型架构：大而灵活

混合专家的路子

长上下文和大脑力

精度和优化

它支持 BF16、FP8、F32 多种精度，FP8 尤其省内存。Hugging Face 上看，它的权重用 safetensors 存着，分了 163 个文件，总共 685 GB，规模大但结构挺模块化。

训练过程：数据加聪明算法

先打基础

DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始，这是个在 14.8 万亿 token 上预训练的模型，数学、代码、Lean 4 都练过一遍，基础很扎实。

自己造数据

微调加强化

搜索新招

V2 还加了个 RMaxTS，是蒙特卡洛树搜索（MCTS）的变种，鼓励模型多试几种证明路子，比 V1.5 的单线推理强多了。

表现怎么样

测试成绩

它在几个测试里表现不错：

MiniF2F：高中数学题，代数、几何、数论都有，88.9% 通过，比 V1.5 的 63.5% 和 GPT-4 的 23.0% 高不少。
PutnamBench：本科竞赛题，难度大，解决了 49/658 个（7.4%），不算高，但也不容易。
ProverBench：DeepSeek 新出的测试，325 个题，有 AIME 2024、2025 的题，具体成绩没公布，但应该比 V1.5 好。

跟别人比

比起其他证明模型，V2 领先不少。V1.5 在 MiniF2F 是 63.5%，ProofNet 25.3%，GPT-4 在 FIMO 上一个都没证明。V2 的进步靠的是模型大、数据多、搜索聪明。

能干啥，有啥影响

帮数学家干活

它能当数学家的助手，验证证明、提思路，甚至找新定理。比如验证几何定理，省时省力。在 Lean 4 里还能跟证明库联动，加速研究。

教学生

教育上，它能教学生形式化推理，生成例子或检查作业。ProverBench 的竞赛题说明它很适合 AIME、IMO 备考。

验软件

证明技术还能用在软件验证上，检查操作系统、加密算法、智能合约，确保没问题，尤其在航空、医疗这些地方很重要。

推 AI 研究

它的训练法（RLPAF、RMaxTS）也能用到别的推理任务，像软件调试、法律推理、科学验证。开源（权重在 Hugging Face）也方便大家研究。

挑战和未来

计算量大

6710 亿参数得用 2048 个 H800 GPU 训练，推理也得大集群，一般人用不起。以后可能得压缩模型或优化推理。

证明靠不靠得住

AI 的证明有时会出错，实际用还得人工或工具再查。未来可以加强错误检查，或者人机合作。

数据咋来的

V1.5 用 800 万条数据，V2 的细节没说全。公开数据对研究很重要，DeepSeek 可以多透露点。

更高难度

现在高中、本科题做得好，但研究生或前沿数学（像代数几何）还没测。以后可以试试更难的，或跨到物理证明。

开源和地缘因素

DeepSeek 受美国管制影响，可能缺GPU硬件，但开源策略让全球研究者受益。未来得平衡开源和赚钱。

最后说两句

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-05-02，如有侵权请联系 cloudcommunity@tencent 删除开源模型数据数学DeepSeek

本文标签：如何评价 Deepseek 新发布的 DeepSeek

版权声明：本文标题：如何评价 Deepseek 新发布的 DeepSeek 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747403398a2164251.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

如何评价 Deepseek 新发布的 DeepSeek

如何评价 Deepseek 新发布的 DeepSeek

数学定理证明有多硬核，AI 能插上手吗？

定理证明是个啥

AI 能帮啥忙

模型架构：大而灵活

混合专家的路子

长上下文和大脑力

精度和优化

训练过程：数据加聪明算法

先打基础

自己造数据

微调加强化

搜索新招

表现怎么样

测试成绩

跟别人比

能干啥，有啥影响

帮数学家干活

教学生

验软件

推 AI 研究

挑战和未来

计算量大

证明靠不靠得住

数据咋来的

更高难度

开源和地缘因素

最后说两句

如何评价 Deepseek 新发布的 DeepSeek

数学定理证明有多硬核，AI 能插上手吗？

定理证明是个啥

AI 能帮啥忙

模型架构：大而灵活

混合专家的路子

长上下文和大脑力

精度和优化

训练过程：数据加聪明算法

先打基础

自己造数据

微调加强化

搜索新招

表现怎么样

测试成绩

跟别人比

能干啥，有啥影响

帮数学家干活

教学生

验软件

推 AI 研究

挑战和未来

计算量大

证明靠不靠得住

数据咋来的

更高难度

开源和地缘因素

最后说两句

更多相关文章

如何评价 Deepseek 新发布的 DeepSeek

发表评论

推荐文章

docker-compose: Dockerfile succesfully copies the file but is not found on the container - Stack Overflow

javascript - How to replace playpause icon toggle with text - Stack Overflow

node.js - How to POST formdata including a file field with http2 module in Node? - Stack Overflow

javascript - What&#39;s the purpose of &lt;div className=&quot;App&quot;&gt; in a React class render functio

c++ - How is it possible that I&#39;m locking a mutex multiple times, if mutex shall be possible to be locked only once? - S

热门文章

javascript - How to wait for sub process results before returning from Meteor.method - Stack Overflow

javascript - ReferenceError: Papa is not defined - Stack Overflow

javascript - Using variables used in BSF post-processor as a parameter in another sampler - Stack Overflow

c - Fixing extra 0 on the end of a filename request for tftp - warning: the comparison will always evaluate as ‘false’ for the p

Error &quot;Capability not supported&quot; trying to create BDE.TTable with ADT field in Delphi 11 - Stack Overflow

javascript - How to tell Sonar to analyze *.ts files instead of *.js files - Stack Overflow

javascript - Select distinct objects from nested arrays using linq.js - Stack Overflow

Python使用代理IP实时价格监控

Green Tea GC: Golang 的 ZGC？

hysAnalyser 综述

最新文章

PureRef：打造你的专属灵感宝库，让创意不再“卡壳”！

javascript - What's the purpose of <div className="App"> in a React class render functio

c++ - How is it possible that I'm locking a mutex multiple times, if mutex shall be possible to be locked only once? - S

Error "Capability not supported" trying to create BDE.TTable with ADT field in Delphi 11 - Stack Overflow

javascript - How to tell Sonar to analyze .ts files instead of .js files - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow