admin管理员组文章数量:1130349
LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务)
目录
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
(1)、SFT指令微调数据集
(2)、奖励模型排序数据集
rm-static数据集
HuggingFace上下载parquet数据集方式
hh-rlhf数据集
(3)、人类反馈强化学习数据集
2、RLHF算法实现的三个阶段
2.0、底座语言模型下载
2.1、RLHF训练阶段1 - 监督指令微调
2.2、RLHF训练阶段2 - 训练奖励模型
(1)、定义LogSigLoss函数
(2)、定义RewardModel函数
4-GPU 训练
2.3、RLHF训练阶段3 - 使用人类反馈进行强化学习训练模型
使用8-GPU进行训练
PPO部分和PTX部分
3、推理量化和服务 - 训练后
8位量化推理
低成本4位量化推理
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
监督式数据集收集:我们收集了10.4万条中英文双语数据集,并且您可以在这个InstructionWild存储库中找到这些数据集。以下是我们如何收集数据的过程:
LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务)
目录
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
(1)、SFT指令微调数据集
(2)、奖励模型排序数据集
rm-static数据集
HuggingFace上下载parquet数据集方式
hh-rlhf数据集
(3)、人类反馈强化学习数据集
2、RLHF算法实现的三个阶段
2.0、底座语言模型下载
2.1、RLHF训练阶段1 - 监督指令微调
2.2、RLHF训练阶段2 - 训练奖励模型
(1)、定义LogSigLoss函数
(2)、定义RewardModel函数
4-GPU 训练
2.3、RLHF训练阶段3 - 使用人类反馈进行强化学习训练模型
使用8-GPU进行训练
PPO部分和PTX部分
3、推理量化和服务 - 训练后
8位量化推理
低成本4位量化推理
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
监督式数据集收集:我们收集了10.4万条中英文双语数据集,并且您可以在这个InstructionWild存储库中找到这些数据集。以下是我们如何收集数据的过程:
版权声明:本文标题:LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→ 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1754501416a2693415.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论