admin管理员组

文章数量:1036105

DeepSeek R1 满血版推理模型即将上线,编程能力仅次 O1,远超DeepSeek

DeepSeek 在发布完 V3 模型之后,R1-Lite 的满血版 R1-Preview 已经进入榜单测试。他们正和 LiveCodeBench 测试 DeepSeek-R1-Preview,并公布了榜单排名。从版单上来看,DeepSeek-R1-Preview 和 O1 的 Med 模型不相伯仲,而 O1 High 模型则明显领先,尤其是在解决 Hard 和 Medium 问题上。最重要的是,DeepSeek-R1-Preview 比 DeepSeek-V3 要强大很多,期待尽快发布,我要接入 cline 写代码了。

LiveCodeBench 是一个全面且无污染的代码大模型 (LLMs) 评估基准,能够随着时间推移不断收集新的问题。尤其是,LiveCodeBench 不仅关注代码生成,还涵盖更广泛的代码相关能力,例如自我修复、代码执行以及测试输出预测。目前,LiveCodeBench 包含 2023 年 5 月至 2024 年 2 月间发布的 300 多个高质量编程问题。我们基于 LiveCodeBench 的场景对 29 个大模型进行了评估,并展示了一些在以往基准中未揭示的新实证发现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-01-20,如有侵权请联系 cloudcommunity@tencent 删除编程测试模型DeepSeekpreview

DeepSeek R1 满血版推理模型即将上线,编程能力仅次 O1,远超DeepSeek

DeepSeek 在发布完 V3 模型之后,R1-Lite 的满血版 R1-Preview 已经进入榜单测试。他们正和 LiveCodeBench 测试 DeepSeek-R1-Preview,并公布了榜单排名。从版单上来看,DeepSeek-R1-Preview 和 O1 的 Med 模型不相伯仲,而 O1 High 模型则明显领先,尤其是在解决 Hard 和 Medium 问题上。最重要的是,DeepSeek-R1-Preview 比 DeepSeek-V3 要强大很多,期待尽快发布,我要接入 cline 写代码了。

LiveCodeBench 是一个全面且无污染的代码大模型 (LLMs) 评估基准,能够随着时间推移不断收集新的问题。尤其是,LiveCodeBench 不仅关注代码生成,还涵盖更广泛的代码相关能力,例如自我修复、代码执行以及测试输出预测。目前,LiveCodeBench 包含 2023 年 5 月至 2024 年 2 月间发布的 300 多个高质量编程问题。我们基于 LiveCodeBench 的场景对 29 个大模型进行了评估,并展示了一些在以往基准中未揭示的新实证发现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-01-20,如有侵权请联系 cloudcommunity@tencent 删除编程测试模型DeepSeekpreview

本文标签: DeepSeek R1 满血版推理模型即将上线,编程能力仅次 O1,远超DeepSeek