369IT编程
  •  首页
  •  教程
  •  IT编程
  •  国外技术
  •  登录
  1. 标签
  2. TransformerMamba黄金组合!长文推理性能飙升3倍,
  • Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

    新智元报道编辑:LRS【新智元导读】Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%
    TransformerMamba黄金组合!长文推理性能飙升3倍,性能还更强
    admin19小时前
    60
CopyRight © 2022 All Rights Reserved
Processed: 0.019, SQL: 9