admin管理员组文章数量:1130349
本文是LLM系列文章,针对《A Comprehensive Evaluation of Quantization Strategies for Large Language Models》的翻译。
大型语言模型量化策略的综合评价
- 摘要
- 1 引言
- 2 相关工作
- 3 评估协议
- 4 评估设置
- 5 实验结果和讨论
- 6 结论
- 局限性
摘要
增加大型语言模型(LLM)中的参数数量通常会提高下游任务的性能,但会增加计算和内存成本,使部署在资源有限的环境中变得困难。由于LLM的兴起,量化技术已经变得流行起来,该技术以最小的性能损失来减少模型权重或激活所需的比特。然而,大多数量化研究使用预训练的LLM,量化对指令调整LLM的影响以及量化LLM的困惑与基准性能之间的关系还没有得到很好的理解。量化LLM的评估通常仅限于语言建模和一些分类任务,使其在其他基准上的性能不明确。为了解决这些差距,我们提出了一个由三个关键维度组成的结构化评估框架:(1)知识和能力,(2)一致性和(3)效率,并在十个不同的基准上进行了广泛的实验。我们的实验结果表明,具有4位量化的LLM可以保持与非量化LLM相当的性能,并且困惑可以作为大多数基准上量化LLM的代理度量。此外,具有较大参数尺度的量化LLM可以优于较小LLM。尽管通过量化节省了内存,但它也会减慢LLM的推理速度。因此,为了在量化LLM的背景下实现解码速度和存储器消耗的平衡优化,大量的工程工作和硬件支持是必不可少的。
1 引言
2 相关工作
3 评估协议
4 评估设置
5 实验结果和讨论
本文是LLM系列文章,针对《A Comprehensive Evaluation of Quantization Strategies for Large Language Models》的翻译。
大型语言模型量化策略的综合评价
- 摘要
- 1 引言
- 2 相关工作
- 3 评估协议
- 4 评估设置
- 5 实验结果和讨论
- 6 结论
- 局限性
摘要
增加大型语言模型(LLM)中的参数数量通常会提高下游任务的性能,但会增加计算和内存成本,使部署在资源有限的环境中变得困难。由于LLM的兴起,量化技术已经变得流行起来,该技术以最小的性能损失来减少模型权重或激活所需的比特。然而,大多数量化研究使用预训练的LLM,量化对指令调整LLM的影响以及量化LLM的困惑与基准性能之间的关系还没有得到很好的理解。量化LLM的评估通常仅限于语言建模和一些分类任务,使其在其他基准上的性能不明确。为了解决这些差距,我们提出了一个由三个关键维度组成的结构化评估框架:(1)知识和能力,(2)一致性和(3)效率,并在十个不同的基准上进行了广泛的实验。我们的实验结果表明,具有4位量化的LLM可以保持与非量化LLM相当的性能,并且困惑可以作为大多数基准上量化LLM的代理度量。此外,具有较大参数尺度的量化LLM可以优于较小LLM。尽管通过量化节省了内存,但它也会减慢LLM的推理速度。因此,为了在量化LLM的背景下实现解码速度和存储器消耗的平衡优化,大量的工程工作和硬件支持是必不可少的。
1 引言
2 相关工作
3 评估协议
4 评估设置
5 实验结果和讨论
本文标签: QuantizationevaluationComprehensivestrategiesModels
版权声明:本文标题:A Comprehensive Evaluation of Quantization Strategies for Large Language Models 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1758739818a2783564.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论