admin管理员组文章数量:1027513
Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!
在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。
项目链接:.6b-v2(点击阅读原文)
什么是 Parakeet V2?
Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数 的英文自动语音识别(ASR)模型,可以:
- 自动加标点和大小写,生成像人写的一样自然的文字;
- 精准预测每个词的时间戳,方便做字幕同步或语音高亮;
- 支持听歌识词,能把歌曲歌词准确写出来;
- 对于说出的数字、金额等格式化内容,也能正确识别。
有多强?
Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上,取得了仅 6.05% 的词错误率(WER),意味着每 100 个词中只有约 6 个出错,在当前业界处于领先水平。
更惊人的是它的速度:比其他模型快上 50 倍,在测试中实现了 RTFx(实时因子)为 3386 的成绩。这意味着它不仅听得准,而且听得飞快!
它怎么做到的?
这个模型基于一个叫 FastConformer 的架构,是语音识别领域中的高效变体,同时融合了先进的 TDT 解码器,可以处理长达 20分钟 的音频段,直接一次性转写完成,无需切割成小段。
这种设计,既减少了切片带来的上下文信息丢失,也提升了整体效率。
用在哪里?
Parakeet V2 已经为商业与非商业用途做好准备,你可以用它来:
- 为会议、播客、讲座生成字幕;
- 为客服语音记录建立文本索引;
- 开发基于语音的搜索引擎;
- 或者干脆打造你的“听写神器”!
试用地址:
这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
如何使用这个模型:
要训练、微调或使用模型,您需要安装 NVIDIA NeMo。我们建议您在安装最新的 PyTorch 版本后安装它。
代码语言:javascript代码运行次数:0运行复制pip install -U nemo_toolkit['asr']
该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。
自动实例化模型
代码语言:javascript代码运行次数:0运行复制import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
支持的GPU架构:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Volta
Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳!
在我们日常生活中,语音识别已经成为手机助手、字幕生成、会议记录等场景中的重要技术。5月1日,NVIDIA 推出了一个全新语音识别模型——Parakeet-tdt-0.6b-v2,它不仅听得清、听得准,还听得快,是目前 Hugging Face 公布的自动语音识别排行榜上的行业最佳之一。
项目链接:.6b-v2(点击阅读原文)
什么是 Parakeet V2?
Parakeet-tdt-0.6b-v2 是一个拥有 6亿参数 的英文自动语音识别(ASR)模型,可以:
- 自动加标点和大小写,生成像人写的一样自然的文字;
- 精准预测每个词的时间戳,方便做字幕同步或语音高亮;
- 支持听歌识词,能把歌曲歌词准确写出来;
- 对于说出的数字、金额等格式化内容,也能正确识别。
有多强?
Parakeet V2 在 Hugging Face 的公开 ASR 排行榜上,取得了仅 6.05% 的词错误率(WER),意味着每 100 个词中只有约 6 个出错,在当前业界处于领先水平。
更惊人的是它的速度:比其他模型快上 50 倍,在测试中实现了 RTFx(实时因子)为 3386 的成绩。这意味着它不仅听得准,而且听得飞快!
它怎么做到的?
这个模型基于一个叫 FastConformer 的架构,是语音识别领域中的高效变体,同时融合了先进的 TDT 解码器,可以处理长达 20分钟 的音频段,直接一次性转写完成,无需切割成小段。
这种设计,既减少了切片带来的上下文信息丢失,也提升了整体效率。
用在哪里?
Parakeet V2 已经为商业与非商业用途做好准备,你可以用它来:
- 为会议、播客、讲座生成字幕;
- 为客服语音记录建立文本索引;
- 开发基于语音的搜索引擎;
- 或者干脆打造你的“听写神器”!
试用地址:
这个AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。利用 NVIDIA 的硬件(例如GPU 内核)和软件框架(例如 CUDA 库),与仅 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
如何使用这个模型:
要训练、微调或使用模型,您需要安装 NVIDIA NeMo。我们建议您在安装最新的 PyTorch 版本后安装它。
代码语言:javascript代码运行次数:0运行复制pip install -U nemo_toolkit['asr']
该模型可用于NeMo工具,可用于预训练的检查点,用于推理或在另一个数据集上进行微调。
自动实例化模型
代码语言:javascript代码运行次数:0运行复制import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
支持的GPU架构:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Volta
本文标签: Parakeet V2NVIDIA 打造的“超级听写机”,让语音识别快准稳!
版权声明:本文标题:Parakeet V2:NVIDIA 打造的“超级听写机”,让语音识别快准稳! 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747395312a2163094.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论