admin管理员组文章数量:1130349
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization
Proximal Policy Optimization
这是一个基本示例,展示了如何使用库中的PPOTrainer。基于一个查询,语言模型创建一个响应,然后对该响应进行评估。评估可以是人类参与的过程,或者是另一个模型的输出。
# imports
import torch
from transformers import AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead, create_reference_model
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization
Proximal Policy Optimization
这是一个基本示例,展示了如何使用库中的PPOTrainer。基于一个查询,语言模型创建一个响应,然后对该响应进行评估。评估可以是人类参与的过程,或者是另一个模型的输出。
# imports
import torch
from transformers import AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead, create_reference_model
本文标签: 实战模型TRLTransformerReinforcement
版权声明:本文标题:大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1754744961a2723898.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论