服务化参数调优实战-369IT编程

admin管理员组
文章数量:1030016

服务化参数调优实战

服务化性能调优

前置准备

完成MindIE环境的安装，参考链接
下载好要调优的模型权重
下载好性能测试数据集

调优流程

下面以Llama3-8B为例，讲解调优全流程

1.查看模型权重大小

Llama3-8B权重为15GB

2.计算npuMemSize

计算公式为：Floor(单卡显存-空闲占用-权重/NPU卡数)* 系数，系数取值为0.8

单卡空闲显存：61GB

空闲占用：约3GB

npuMemSize = Floor (61 - 3 - 15/1 ) * 0.8 = 34GB

3.计算maxBatchSize

maxBatchSize = Total Block Num/Block Num，需要先计算出"Total Block Num"和"Block Num"的值

计算"Total Block Num"的值 Total Block Num = Floor(NPU显存 / (Block Size 模型网络层数 模型注意力头数 注意力头大小 Cache类型字节数 * Cache数))

对于GQA类模型，注意力头大小=hidden_size/num_attention_heads

将以上参数值代入公式，得到Total Block Num = Floor34102410241024/(128 32 8(4096/32)22) = 2176

计算单个请求的"Block Num" 所需最大Block Num = Ceil(输入Token数/cacheBlockSize)+Ceil(最大输出Token数/cacheBlockSize) 所需最小Block Num = Ceil(输入Token数/cacheBlockSize) 所需平均Block Num = Ceil(输入Token数/cacheBlockSize)+Ceil(平均输出Token数/cacheBlockSize)

从下面benchmark信息获取数据集信息：

InputTokens: 60(avg), 186(max), 23(min)

OutputTokens: 467(avg), maxIterTimes(max), 18(min)

所需最小Block Num = Ceil(60/128) = 1

所需最大Block Num = Ceil(60/128)+Ceil(512/128) = 5

所需平均Block Num = Ceil(60/128)+Ceil(346/128) = 4

计算"maxBatchSize" 最小maxBatchSize = FloorTotal Block Num/所需最大Block Num = 435 最大maxBatchSize = FloorTotal Block Num/所需最小Block Num = 2176 平均maxBatchSize = FloorTotal Block Num/所需平均Block Num = 544

4.计算maxPrefillBatchSize和maxPrefillTokens的值

maxPrefillBatchSize建议设置为：maxBatchSize值的一半 maxPrefillBatchSize = FloormaxBatchSize/2 = 544/2 = 272
maxPrefillTokens的值一般不超过8192 maxPrefillTokens = maxPrefillBatchSize 数据集token id平均输入长度 = 27260 = 16320 根据公式计算出的值大于8192，所以maxPrefillTokens的取值为8192

5.更新配置&性能测试

更新配置如下：

实测性能默认参数测试结果：

参数调优后测试结果：

可以看到，吞吐提升了18%。

服务化参数调优实战

服务化性能调优

前置准备

完成MindIE环境的安装，参考链接
下载好要调优的模型权重
下载好性能测试数据集

调优流程

下面以Llama3-8B为例，讲解调优全流程

1.查看模型权重大小

Llama3-8B权重为15GB

2.计算npuMemSize

计算公式为：Floor(单卡显存-空闲占用-权重/NPU卡数)* 系数，系数取值为0.8

单卡空闲显存：61GB

空闲占用：约3GB

npuMemSize = Floor (61 - 3 - 15/1 ) * 0.8 = 34GB

3.计算maxBatchSize

maxBatchSize = Total Block Num/Block Num，需要先计算出"Total Block Num"和"Block Num"的值

计算"Total Block Num"的值 Total Block Num = Floor(NPU显存 / (Block Size 模型网络层数 模型注意力头数 注意力头大小 Cache类型字节数 * Cache数))

对于GQA类模型，注意力头大小=hidden_size/num_attention_heads

将以上参数值代入公式，得到Total Block Num = Floor34102410241024/(128 32 8(4096/32)22) = 2176

计算单个请求的"Block Num" 所需最大Block Num = Ceil(输入Token数/cacheBlockSize)+Ceil(最大输出Token数/cacheBlockSize) 所需最小Block Num = Ceil(输入Token数/cacheBlockSize) 所需平均Block Num = Ceil(输入Token数/cacheBlockSize)+Ceil(平均输出Token数/cacheBlockSize)

从下面benchmark信息获取数据集信息：

InputTokens: 60(avg), 186(max), 23(min)

OutputTokens: 467(avg), maxIterTimes(max), 18(min)

所需最小Block Num = Ceil(60/128) = 1

所需最大Block Num = Ceil(60/128)+Ceil(512/128) = 5

所需平均Block Num = Ceil(60/128)+Ceil(346/128) = 4

计算"maxBatchSize" 最小maxBatchSize = FloorTotal Block Num/所需最大Block Num = 435 最大maxBatchSize = FloorTotal Block Num/所需最小Block Num = 2176 平均maxBatchSize = FloorTotal Block Num/所需平均Block Num = 544

4.计算maxPrefillBatchSize和maxPrefillTokens的值

maxPrefillBatchSize建议设置为：maxBatchSize值的一半 maxPrefillBatchSize = FloormaxBatchSize/2 = 544/2 = 272
maxPrefillTokens的值一般不超过8192 maxPrefillTokens = maxPrefillBatchSize 数据集token id平均输入长度 = 27260 = 16320 根据公式计算出的值大于8192，所以maxPrefillTokens的取值为8192

5.更新配置&性能测试

更新配置如下：

实测性能默认参数测试结果：

参数调优后测试结果：

可以看到，吞吐提升了18%。

本文标签：服务化参数调优实战

版权声明：本文标题：服务化参数调优实战内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747635132a2196540.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

服务化参数调优实战

服务化参数调优实战

服务化性能调优

前置准备

调优流程

1.查看模型权重大小

2.计算npuMemSize

3.计算maxBatchSize

4.计算maxPrefillBatchSize和maxPrefillTokens的值

5.更新配置&性能测试

服务化参数调优实战

服务化性能调优

前置准备

调优流程

1.查看模型权重大小

2.计算npuMemSize

3.计算maxBatchSize

4.计算maxPrefillBatchSize和maxPrefillTokens的值

5.更新配置&性能测试

更多相关文章

服务化参数调优实战

发表评论

推荐文章

categories - Category tree is flattened inside admin upon saving

javascript - Upload a txt to Amazon S3 - Stack Overflow

custom post types - Unable to format dates to put in event calendar

javascript - Sidebar functionality in google sheets: clicking a button to open a new &#39;page&#39; within the sidebar -

如何解决 PyCharm 报错 “TabError: inconsistent use of tabs and spaces in indentation” 问题

热门文章

r - MatchThem and reference levels - Stack Overflow

JUC并发—11.线程池源码分析

ChromiumHtmlToPdf:Net跨平台轻松将HTML转换为PDF

降低成本！支付宝小程序服务器配置实用技巧，合理利用资源

日差校表仪检定装置功能特点总结！

OpenAI最新威胁报告点名中国用户，新一轮ChatGPT封号潮来袭！

cmd命令行设置 windows 设置环境变量

Windows10预装自带APP卸载和安装win10自带软件恢复

踩过无数坑才懂：支付宝小程序多端适配的实用策略

2.7K star！这个汉字工具库让中文处理变得超简单，开发者必备！

最新文章

一键解锁平台工具箱适用荣耀手机华为手机不记得开机密码无法激活设备已锁定解不开锁的资料软件平台和教材

SpringAI版本更新：向量数据库不可用的解决方案！

Windows 11遇到这三类问题？强制改密密码丢失管理员阻止应用的解决方法！

强化学习算法解析：深度 Q 网络（Deep Q

谷歌杀疯了，顶级视频模型 Veo 2 竟免费开放？速来 AI Studio 白嫖。

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Sidebar functionality in google sheets: clicking a button to open a new 'page' within the sidebar -

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow