admin管理员组

文章数量:1027513

Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!

在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。

项目链接:.6b-v2(点击阅读原文)

什么是 Parakeet V2?

Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数 的英文自动语音识别(ASR)模型,可以:

  • 自动加标点和大小写,生成像人写的一样自然的文字;
  • 精准预测每个词的时间戳,方便做字幕同步或语音高亮;
  • 支持听歌识词,能把歌曲歌词准确写出来;
  • 对于说出的数字、金额等格式化内容,也能正确识别。

有多强?

Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上,取得了仅 6.05% 的词错误率(WER),意味着每 100 个词中只有约 6 个出错,在当前业界处于领先水平。

更惊人的是它的速度:比其他模型快上 50 倍,在测试中实现了 RTFx(实时因子)为 3386 的成绩。这意味着它不仅听得准,而且听得飞快!

它怎么做到的?

这个模型基于一个叫 FastConformer 的架构,是语音识别领域中的高效变体,同时融合了先进的 TDT 解码器,可以处理长达 20分钟 的音频段,直接一次性转写完成,无需切割成小段。

这种设计,既减少了切片带来的上下文信息丢失,也提升了整体效率。

用在哪里?

Parakeet V2 已经为商业与非商业用途做好准备,你可以用它来:

  • 为会议、播客、讲座生成字幕;
  • 为客服语音记录建立文本索引;
  • 开发基于语音的搜索引擎;
  • 或者干脆打造你的“听写神器”!

试用地址:

这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

如何使用这个模型:

要训练、微调或使用模型,您需要安装 NVIDIA NeMo。我们建议您在安装最新的 PyTorch 版本后安装它。

代码语言:javascript代码运行次数:0运行复制
pip install -U nemo_toolkit['asr']

该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。

自动实例化模型
代码语言:javascript代码运行次数:0运行复制
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

支持的GPU架构:

  • NVIDIA Ampere
  • NVIDIA Blackwell
  • NVIDIA Hopper
  • NVIDIA Volta
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-05-04,如有侵权请联系 cloudcommunity@tencent 删除nvidia模型设计语音语音识别

Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!

在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。

项目链接:.6b-v2(点击阅读原文)

什么是 Parakeet V2?

Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数 的英文自动语音识别(ASR)模型,可以:

  • 自动加标点和大小写,生成像人写的一样自然的文字;
  • 精准预测每个词的时间戳,方便做字幕同步或语音高亮;
  • 支持听歌识词,能把歌曲歌词准确写出来;
  • 对于说出的数字、金额等格式化内容,也能正确识别。

有多强?

Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上,取得了仅 6.05% 的词错误率(WER),意味着每 100 个词中只有约 6 个出错,在当前业界处于领先水平。

更惊人的是它的速度:比其他模型快上 50 倍,在测试中实现了 RTFx(实时因子)为 3386 的成绩。这意味着它不仅听得准,而且听得飞快!

它怎么做到的?

这个模型基于一个叫 FastConformer 的架构,是语音识别领域中的高效变体,同时融合了先进的 TDT 解码器,可以处理长达 20分钟 的音频段,直接一次性转写完成,无需切割成小段。

这种设计,既减少了切片带来的上下文信息丢失,也提升了整体效率。

用在哪里?

Parakeet V2 已经为商业与非商业用途做好准备,你可以用它来:

  • 为会议、播客、讲座生成字幕;
  • 为客服语音记录建立文本索引;
  • 开发基于语音的搜索引擎;
  • 或者干脆打造你的“听写神器”!

试用地址:

这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

如何使用这个模型:

要训练、微调或使用模型,您需要安装 NVIDIA NeMo。我们建议您在安装最新的 PyTorch 版本后安装它。

代码语言:javascript代码运行次数:0运行复制
pip install -U nemo_toolkit['asr']

该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。

自动实例化模型
代码语言:javascript代码运行次数:0运行复制
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

支持的GPU架构:

  • NVIDIA Ampere
  • NVIDIA Blackwell
  • NVIDIA Hopper
  • NVIDIA Volta
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-05-04,如有侵权请联系 cloudcommunity@tencent 删除nvidia模型设计语音语音识别

本文标签: Parakeet V2NVIDIA 打造的“超级听写机”,让语音识别快准稳!