admin管理员组

文章数量:1027491

如何评价 Deepseek 新发布的 DeepSeek

开门见山:AI 玩转数学的硬核时刻

最近几年,AI 的发展简直像开了挂,大型语言模型早就不是只会写写文章、翻翻语言的小能手了,而是直接冲进了数学这种硬核地带。2025 年 4 月,DeepSeek 放大招,推出了 DeepSeek-Prover-V2-671B,参数高达 6710 亿,专为在 Lean 4 语言里证明数学定理而生。这家伙在 MiniF2F 测试里拿下 88.9% 的通过率,还在 PutnamBench 上搞定了 49 个问题(总共 658 个),在 AI 搞形式化数学推理这块,绝对算得上是大事件。

我搞计算机视觉和 AI 有段时间了,看到这模型真挺兴奋。它不光是秀了一把 AI 在逻辑推理上的肌肉,还可能给数学研究、教学,甚至软件验证带来新花样。当然,它烧的算力不少,证明靠不靠谱也得再掂量掂量。这篇文章,我想从技术的角度聊聊它,看看架构怎么搭的、训练怎么搞的、表现咋样,还有未来能玩出啥花头,希望给有点技术底子的朋友一点灵感。

数学定理证明有多硬核,AI 能插上手吗?

定理证明是个啥

数学定理证明是数学的核心活儿,从公理和已知条件出发,一步步推到新结论。这事儿得逻辑严丝合缝,还得有点灵光一现的感觉。以前,这都是数学家凭脑子和经验慢慢磨出来的,费时费力,所以大家都想着,能不能让 AI 来搭把手。

要是用上 Lean 4 这种形式化证明工具,难度就更上一层楼了。数学家得先把问题从日常语言变成机器能读懂的形式化代码,再写出能跑通的证明。这不光考数学功底,还得懂编程。对 AI 来说,既得抓得住抽象概念,还得理出一串长长的逻辑链子,保证代码不出岔子,真不是件轻松活儿。

AI 能帮啥忙

大型语言模型靠着海量文本和代码喂出来的本事,已经能在数学推理上露两手。不过定理证明可不是猜对答案就行,得给出能验的证明过程。早期的 GPT-3 在自然语言数学题上还能凑合,一到形式化证明就露怯,不是逻辑乱套就是语法崩盘。DeepSeek-Prover-V2-671B 的横空出世可是个大跃进,实力已经能跟一些人类专家过过招了。

模型架构:大而灵活

混合专家的路子

DeepSeek-Prover-V2-671B 是从 DeepSeek-V3-Base 改出来的,用了个叫混合专家(MoE)的架构,总参数有 6710 亿,但实际干活时只调大概 370 亿。这设计把模型拆成了一堆“专家”,每个专家管一块,算起来特别省劲。据说有 256 个专家,每次挑 8 个动态上场,按任务分活儿,既快又不占太多内存。

MoE 这招的好处就是省资源。传统那种密集模型,比如 GPT-4,干活得把所有参数都拉出来跑,而 MoE 这种稀疏激活能省下 80% 的算力,有点像人脑的分工,谁擅长啥就让谁上。这模型能在 2048 个 NVIDIA H800 GPU 上跑得飞起,效率真挺高。

长上下文和大脑力

这模型支持 128,000 token 的上下文长度,比很多同类(比如 GPT-4 的 32,000 token)强多了。定理证明常要连着好多定义和引理,长的上下文很关键。DeepSeek 可能用了多头潜在注意力(MLA),压缩缓存来撑长上下文,还不拖慢速度。

精度和优化

它支持 BF16、FP8、F32 多种精度,FP8 尤其省内存。Hugging Face 上看,它的权重用 safetensors 存着,分了 163 个文件,总共 685 GB,规模大但结构挺模块化。

训练过程:数据加聪明算法

先打基础

DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始,这是个在 14.8 万亿 token 上预训练的模型,数学、代码、Lean 4 都练过一遍,基础很扎实。

自己造数据

从 DeepSeek-Prover-V1.5 的报告看,他们用了不少合成数据。从高中、本科的数学竞赛题(像 AIME、IMO)入手,翻译成 Lean 4 语句,再生成证明,攒了大概 800 万条数据。V2 估计数据更多,或者难度更高了。

微调加强化

预训练后,先用监督微调教它写证明,数据是问题-证明对,重点练 Lean 4 的语法和逻辑。然后用强化学习(RLPAF),让 Lean 4 验证证明,错了就改,慢慢变好。这有点像 AlphaGo,靠反馈优化。

搜索新招

V2 还加了个 RMaxTS,是蒙特卡洛树搜索(MCTS)的变种,鼓励模型多试几种证明路子,比 V1.5 的单线推理强多了。

表现怎么样

测试成绩

它在几个测试里表现不错:

  • MiniF2F:高中数学题,代数、几何、数论都有,88.9% 通过,比 V1.5 的 63.5% 和 GPT-4 的 23.0% 高不少。
  • PutnamBench:本科竞赛题,难度大,解决了 49/658 个(7.4%),不算高,但也不容易。
  • ProverBench:DeepSeek 新出的测试,325 个题,有 AIME 2024、2025 的题,具体成绩没公布,但应该比 V1.5 好。

跟别人比

比起其他证明模型,V2 领先不少。V1.5 在 MiniF2F 是 63.5%,ProofNet 25.3%,GPT-4 在 FIMO 上一个都没证明。V2 的进步靠的是模型大、数据多、搜索聪明。

能干啥,有啥影响

帮数学家干活

它能当数学家的助手,验证证明、提思路,甚至找新定理。比如验证几何定理,省时省力。在 Lean 4 里还能跟证明库联动,加速研究。

教学生

教育上,它能教学生形式化推理,生成例子或检查作业。ProverBench 的竞赛题说明它很适合 AIME、IMO 备考。

验软件

证明技术还能用在软件验证上,检查操作系统、加密算法、智能合约,确保没问题,尤其在航空、医疗这些地方很重要。

推 AI 研究

它的训练法(RLPAF、RMaxTS)也能用到别的推理任务,像软件调试、法律推理、科学验证。开源(权重在 Hugging Face)也方便大家研究。

挑战和未来

计算量大

6710 亿参数得用 2048 个 H800 GPU 训练,推理也得大集群,一般人用不起。以后可能得压缩模型或优化推理。

证明靠不靠得住

AI 的证明有时会出错,实际用还得人工或工具再查。未来可以加强错误检查,或者人机合作。

数据咋来的

V1.5 用 800 万条数据,V2 的细节没说全。公开数据对研究很重要,DeepSeek 可以多透露点。

更高难度

现在高中、本科题做得好,但研究生或前沿数学(像代数几何)还没测。以后可以试试更难的,或跨到物理证明。

开源和地缘因素

DeepSeek 受美国管制影响,可能缺GPU硬件,但开源策略让全球研究者受益。未来得平衡开源和赚钱。

最后说两句

DeepSeek-Prover-V2-671B 是 AI 证明数学定理的一个大步。它的 MoE 架构、智能训练和开源让人眼前一亮,在 MiniF2F、PutnamBench 上成绩亮眼。从研究到教学到验证,潜力很大。不过计算量、可靠性、数据透明还得改进。

我挺看好它的未来。它把数学和 AI 结合得更紧,也给推理任务立了个标杆。以后算力强了,方法更好了,这种模型可能会改变我们探索知识的方式。你觉得 AI 证明定理会怎么影响数学研究?欢迎聊聊!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent 删除开源模型数据数学DeepSeek

如何评价 Deepseek 新发布的 DeepSeek

开门见山:AI 玩转数学的硬核时刻

最近几年,AI 的发展简直像开了挂,大型语言模型早就不是只会写写文章、翻翻语言的小能手了,而是直接冲进了数学这种硬核地带。2025 年 4 月,DeepSeek 放大招,推出了 DeepSeek-Prover-V2-671B,参数高达 6710 亿,专为在 Lean 4 语言里证明数学定理而生。这家伙在 MiniF2F 测试里拿下 88.9% 的通过率,还在 PutnamBench 上搞定了 49 个问题(总共 658 个),在 AI 搞形式化数学推理这块,绝对算得上是大事件。

我搞计算机视觉和 AI 有段时间了,看到这模型真挺兴奋。它不光是秀了一把 AI 在逻辑推理上的肌肉,还可能给数学研究、教学,甚至软件验证带来新花样。当然,它烧的算力不少,证明靠不靠谱也得再掂量掂量。这篇文章,我想从技术的角度聊聊它,看看架构怎么搭的、训练怎么搞的、表现咋样,还有未来能玩出啥花头,希望给有点技术底子的朋友一点灵感。

数学定理证明有多硬核,AI 能插上手吗?

定理证明是个啥

数学定理证明是数学的核心活儿,从公理和已知条件出发,一步步推到新结论。这事儿得逻辑严丝合缝,还得有点灵光一现的感觉。以前,这都是数学家凭脑子和经验慢慢磨出来的,费时费力,所以大家都想着,能不能让 AI 来搭把手。

要是用上 Lean 4 这种形式化证明工具,难度就更上一层楼了。数学家得先把问题从日常语言变成机器能读懂的形式化代码,再写出能跑通的证明。这不光考数学功底,还得懂编程。对 AI 来说,既得抓得住抽象概念,还得理出一串长长的逻辑链子,保证代码不出岔子,真不是件轻松活儿。

AI 能帮啥忙

大型语言模型靠着海量文本和代码喂出来的本事,已经能在数学推理上露两手。不过定理证明可不是猜对答案就行,得给出能验的证明过程。早期的 GPT-3 在自然语言数学题上还能凑合,一到形式化证明就露怯,不是逻辑乱套就是语法崩盘。DeepSeek-Prover-V2-671B 的横空出世可是个大跃进,实力已经能跟一些人类专家过过招了。

模型架构:大而灵活

混合专家的路子

DeepSeek-Prover-V2-671B 是从 DeepSeek-V3-Base 改出来的,用了个叫混合专家(MoE)的架构,总参数有 6710 亿,但实际干活时只调大概 370 亿。这设计把模型拆成了一堆“专家”,每个专家管一块,算起来特别省劲。据说有 256 个专家,每次挑 8 个动态上场,按任务分活儿,既快又不占太多内存。

MoE 这招的好处就是省资源。传统那种密集模型,比如 GPT-4,干活得把所有参数都拉出来跑,而 MoE 这种稀疏激活能省下 80% 的算力,有点像人脑的分工,谁擅长啥就让谁上。这模型能在 2048 个 NVIDIA H800 GPU 上跑得飞起,效率真挺高。

长上下文和大脑力

这模型支持 128,000 token 的上下文长度,比很多同类(比如 GPT-4 的 32,000 token)强多了。定理证明常要连着好多定义和引理,长的上下文很关键。DeepSeek 可能用了多头潜在注意力(MLA),压缩缓存来撑长上下文,还不拖慢速度。

精度和优化

它支持 BF16、FP8、F32 多种精度,FP8 尤其省内存。Hugging Face 上看,它的权重用 safetensors 存着,分了 163 个文件,总共 685 GB,规模大但结构挺模块化。

训练过程:数据加聪明算法

先打基础

DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始,这是个在 14.8 万亿 token 上预训练的模型,数学、代码、Lean 4 都练过一遍,基础很扎实。

自己造数据

从 DeepSeek-Prover-V1.5 的报告看,他们用了不少合成数据。从高中、本科的数学竞赛题(像 AIME、IMO)入手,翻译成 Lean 4 语句,再生成证明,攒了大概 800 万条数据。V2 估计数据更多,或者难度更高了。

微调加强化

预训练后,先用监督微调教它写证明,数据是问题-证明对,重点练 Lean 4 的语法和逻辑。然后用强化学习(RLPAF),让 Lean 4 验证证明,错了就改,慢慢变好。这有点像 AlphaGo,靠反馈优化。

搜索新招

V2 还加了个 RMaxTS,是蒙特卡洛树搜索(MCTS)的变种,鼓励模型多试几种证明路子,比 V1.5 的单线推理强多了。

表现怎么样

测试成绩

它在几个测试里表现不错:

  • MiniF2F:高中数学题,代数、几何、数论都有,88.9% 通过,比 V1.5 的 63.5% 和 GPT-4 的 23.0% 高不少。
  • PutnamBench:本科竞赛题,难度大,解决了 49/658 个(7.4%),不算高,但也不容易。
  • ProverBench:DeepSeek 新出的测试,325 个题,有 AIME 2024、2025 的题,具体成绩没公布,但应该比 V1.5 好。

跟别人比

比起其他证明模型,V2 领先不少。V1.5 在 MiniF2F 是 63.5%,ProofNet 25.3%,GPT-4 在 FIMO 上一个都没证明。V2 的进步靠的是模型大、数据多、搜索聪明。

能干啥,有啥影响

帮数学家干活

它能当数学家的助手,验证证明、提思路,甚至找新定理。比如验证几何定理,省时省力。在 Lean 4 里还能跟证明库联动,加速研究。

教学生

教育上,它能教学生形式化推理,生成例子或检查作业。ProverBench 的竞赛题说明它很适合 AIME、IMO 备考。

验软件

证明技术还能用在软件验证上,检查操作系统、加密算法、智能合约,确保没问题,尤其在航空、医疗这些地方很重要。

推 AI 研究

它的训练法(RLPAF、RMaxTS)也能用到别的推理任务,像软件调试、法律推理、科学验证。开源(权重在 Hugging Face)也方便大家研究。

挑战和未来

计算量大

6710 亿参数得用 2048 个 H800 GPU 训练,推理也得大集群,一般人用不起。以后可能得压缩模型或优化推理。

证明靠不靠得住

AI 的证明有时会出错,实际用还得人工或工具再查。未来可以加强错误检查,或者人机合作。

数据咋来的

V1.5 用 800 万条数据,V2 的细节没说全。公开数据对研究很重要,DeepSeek 可以多透露点。

更高难度

现在高中、本科题做得好,但研究生或前沿数学(像代数几何)还没测。以后可以试试更难的,或跨到物理证明。

开源和地缘因素

DeepSeek 受美国管制影响,可能缺GPU硬件,但开源策略让全球研究者受益。未来得平衡开源和赚钱。

最后说两句

DeepSeek-Prover-V2-671B 是 AI 证明数学定理的一个大步。它的 MoE 架构、智能训练和开源让人眼前一亮,在 MiniF2F、PutnamBench 上成绩亮眼。从研究到教学到验证,潜力很大。不过计算量、可靠性、数据透明还得改进。

我挺看好它的未来。它把数学和 AI 结合得更紧,也给推理任务立了个标杆。以后算力强了,方法更好了,这种模型可能会改变我们探索知识的方式。你觉得 AI 证明定理会怎么影响数学研究?欢迎聊聊!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-05-02,如有侵权请联系 cloudcommunity@tencent 删除开源模型数据数学DeepSeek

本文标签: 如何评价 Deepseek 新发布的 DeepSeek