首页
教程
IT编程
国外技术
登录
标签
TransformerMamba黄金组合!长文推理性能飙升3倍,
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
新智元报道编辑:LRS【新智元导读】Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%
TransformerMamba黄金组合!长文推理性能飙升3倍,性能还更强
admin
19小时前
6
0