首页
教程
IT编程
国外技术
登录
标签
Expressing
Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读
Abstract在强化学习领域,结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward,这种做法是能保证最优策略不变
论文
Reward
Arbitrary
Expressing
Functions
admin
8月前
48
0