admin管理员组

文章数量:1037775

技能分层:手内物体重定向的案例研究

编辑:陈萍萍的公主@一点人工一点智能

摘要

论文提出了一种基于预训练低级技能的分层策略,用于解决手内物体重定向任务中的模拟到现实(sim-to-real)迁移难题。传统方法通常需要针对每个新任务从头训练策略,涉及复杂的奖励函数设计和超参数调优,而本文通过引入分层架构,将复杂任务分解为预训练的低级旋转技能(如绕单轴旋转)和高级规划策略的组合。

规划策略不仅选择低级技能的旋转轴,还输出残差动作以修正低级策略的执行误差。这一设计显著缩小了探索空间,提升了训练效率和策略鲁棒性。此外,论文提出了一种基于本体感知、低级技能反馈和控制误差的通用状态估计器,能够处理对称物体和无纹理物体的姿态估计问题。实验表明,该方法在模拟环境和真实场景中均表现出色,尤其在噪声干扰和分布外场景下具有显著优势。

公式分析:

奖励函数设计为

,其中第一项通过旋转距离(d为四元数差异的度量)鼓励策略接近目标姿态,第二项为成功奖励。与传统方法相比,这一设计简化了奖励工程,依赖于预训练低级技能的鲁棒性,避免了复杂的多目标权衡。

引言

传统灵巧手操作研究中,基于强化学习的策略通常需要针对每个任务独立训练,面临奖励工程复杂、超参数敏感等问题。作者从人类学习新技能的机制中获得启发:人类通过组合已有技能(如投球、挥拍)快速掌握复杂任务(如网球发球)。类似地,机器人策略设计应利用预训练的低级技能,而非从零开始。手内物体重定向任务因其复杂性和普适性成为验证这一理念的理想场景。

论文的核心创新在于分层架构的反馈机制:高级规划策略不仅输出低级技能的控制指令,还接收低级策略的内部状态反馈(如物体几何特征估计 ztzt),并通过残差动作动态修正执行误差。这种闭环设计弥补了传统分层方法中低级技能反馈不足的缺陷,提升了系统的容错能力。此外,作者指出现有姿态估计方法对对称物体的局限性,提出一种融合本体感知与控制反馈的通用估计器,为复杂场景下的状态跟踪提供了新思路。

相关工作

1)手内操作领域的研究从经典控制方法转向基于学习的策略,尤其是模拟到现实迁移技术。例如,Dextreme [5] 使用人工定义的关键点估计立方体姿态,但无法泛化到其他物体;Visual Dexterity [4] 依赖点云但无法处理对称物体。本文通过预训练低级技能和通用状态估计器,突破了这些限制。

2)姿态估计方面,传统方法依赖视觉特征或点云,但在手内操作中面临严重遮挡和对称性问题。论文提出的估计器通过递归神经网络整合时序本体感知(如关节位置、控制误差)和低级技能反馈,实现了无需物体先验的鲁棒姿态跟踪。其核心改进在于模块化设计,将状态估计与策略训练解耦,避免为每个物体单独训练模型。

3)技能分层在机器人学中早有研究,但传统方法常因低级技能反馈缺失导致高层策略脆弱。本文通过残差动作和技能反馈的联合设计,实现了动态误差修正。例如,残差动作

允许高层策略在低级技能的基础上微调,适应任务特异性需求。

方法

4.1 分层策略架构

系统由规划策略πplan和技能策略πskill组成(图2)。规划策略输入包括物体状态、本体感知、低级反馈zt和目标姿态,输出旋转轴指令

和残差动作

。技能策略基于预训练的绕轴旋转策略 [6],通过Transformer编码时序观测(关节位置、深度图像嵌入dt),生成关节目标位置

关键设计:

· 残差动作:通过

,高层策略可修正低级技能的执行偏差。例如,当物体因摩擦不足发生滑动时,残差动作可补偿轨迹误差。

· 技能反馈:低级策略输出的特征向量zt编码物体几何属性(如形状、惯性),为高层策略提供隐式物体信息,避免显式建模的复杂性。

· 公式分析:技能策略的观测序列

包含历史关节位置、动作和深度图像嵌入,通过Transformer提取时序特征。这种设计使策略能够捕捉物体运动的动态特性。

4.2 通用状态估计器

状态估计器ϕ以时序本体感知(关节位置θt、控制误差qt−at−1)、低级反馈zt和先前估计状态

为输入,递归预测物体姿态

。其训练目标是最小化预测姿态与仿真中真实姿态的ℓ2误差。

创新点:

· 模块化训练:状态估计器与策略分开训练,利用仿真中生成的数据集

,避免端到端训练的不稳定性。

· 容错机制:当预测误差超过阈值(如旋转偏差 >0.8 rad 或位置偏差 >3 cm)时重置估计器,防止误差累积导致失效。

公式分析:

输入特征

的拼接,通过Transformer捕捉长时序依赖。这种设计使估计器能够利用历史信息纠正瞬时噪声。

实验

5.1 策略分层优势

在噪声环境下(图3),分层策略的收敛速度比基线快8倍,且在噪声标准差增至0.15 rad时仍保持稳定,而基线策略完全失效。这是因为预训练低级技能提供了结构化动作空间,减少了无效探索。消融实验(图6)表明,移除残差动作或技能反馈会使成功率下降10-15%,验证了二者对性能的关键作用。

5.2 状态估计器性能

使用估计器替代仿真真实状态后(表1),分层策略的成功率下降约13%,但仍显著优于基线(75.24% vs. 52.32%)。能量指标(如扭矩、关节加速度)显示分层策略动作更平滑,利于现实迁移。可视化结果(图5)表明,即使在物体滑动时,估计器仍能提供可靠的姿态预测。

5.3 现实世界实验

在六种物体(包括训练集外的立方体)上测试,单轴旋转任务成功率超过80%,多轴任务约70%(图7)。失败案例主要源于小物体(如微型立方体)的操控难度,突显触觉反馈的必要性。成功因素归因于:1)可迁移的低级技能;2)规划策略的闭环反馈设计。

结论与展望

本文通过分层策略和通用状态估计器的协同设计,实现了高效、鲁棒的手内物体重定向。其核心贡献在于将复杂任务分解为可复用低级技能,并通过反馈机制实现动态纠错。然而,系统仍依赖低级技能的精确执行,且姿态误差会随时间累积。未来可结合触觉传感提升滑动检测能力,或引入视觉-触觉融合实现长时序姿态跟踪。

公式总结:

· 奖励函数

· 状态估计损失

· 残差动作

这些公式共同构成了系统优化与鲁棒性的数学基础,体现了从理论设计到工程实现的紧密衔接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除系统重定向迁移论文设计

技能分层:手内物体重定向的案例研究

编辑:陈萍萍的公主@一点人工一点智能

摘要

论文提出了一种基于预训练低级技能的分层策略,用于解决手内物体重定向任务中的模拟到现实(sim-to-real)迁移难题。传统方法通常需要针对每个新任务从头训练策略,涉及复杂的奖励函数设计和超参数调优,而本文通过引入分层架构,将复杂任务分解为预训练的低级旋转技能(如绕单轴旋转)和高级规划策略的组合。

规划策略不仅选择低级技能的旋转轴,还输出残差动作以修正低级策略的执行误差。这一设计显著缩小了探索空间,提升了训练效率和策略鲁棒性。此外,论文提出了一种基于本体感知、低级技能反馈和控制误差的通用状态估计器,能够处理对称物体和无纹理物体的姿态估计问题。实验表明,该方法在模拟环境和真实场景中均表现出色,尤其在噪声干扰和分布外场景下具有显著优势。

公式分析:

奖励函数设计为

,其中第一项通过旋转距离(d为四元数差异的度量)鼓励策略接近目标姿态,第二项为成功奖励。与传统方法相比,这一设计简化了奖励工程,依赖于预训练低级技能的鲁棒性,避免了复杂的多目标权衡。

引言

传统灵巧手操作研究中,基于强化学习的策略通常需要针对每个任务独立训练,面临奖励工程复杂、超参数敏感等问题。作者从人类学习新技能的机制中获得启发:人类通过组合已有技能(如投球、挥拍)快速掌握复杂任务(如网球发球)。类似地,机器人策略设计应利用预训练的低级技能,而非从零开始。手内物体重定向任务因其复杂性和普适性成为验证这一理念的理想场景。

论文的核心创新在于分层架构的反馈机制:高级规划策略不仅输出低级技能的控制指令,还接收低级策略的内部状态反馈(如物体几何特征估计 ztzt),并通过残差动作动态修正执行误差。这种闭环设计弥补了传统分层方法中低级技能反馈不足的缺陷,提升了系统的容错能力。此外,作者指出现有姿态估计方法对对称物体的局限性,提出一种融合本体感知与控制反馈的通用估计器,为复杂场景下的状态跟踪提供了新思路。

相关工作

1)手内操作领域的研究从经典控制方法转向基于学习的策略,尤其是模拟到现实迁移技术。例如,Dextreme [5] 使用人工定义的关键点估计立方体姿态,但无法泛化到其他物体;Visual Dexterity [4] 依赖点云但无法处理对称物体。本文通过预训练低级技能和通用状态估计器,突破了这些限制。

2)姿态估计方面,传统方法依赖视觉特征或点云,但在手内操作中面临严重遮挡和对称性问题。论文提出的估计器通过递归神经网络整合时序本体感知(如关节位置、控制误差)和低级技能反馈,实现了无需物体先验的鲁棒姿态跟踪。其核心改进在于模块化设计,将状态估计与策略训练解耦,避免为每个物体单独训练模型。

3)技能分层在机器人学中早有研究,但传统方法常因低级技能反馈缺失导致高层策略脆弱。本文通过残差动作和技能反馈的联合设计,实现了动态误差修正。例如,残差动作

允许高层策略在低级技能的基础上微调,适应任务特异性需求。

方法

4.1 分层策略架构

系统由规划策略πplan和技能策略πskill组成(图2)。规划策略输入包括物体状态、本体感知、低级反馈zt和目标姿态,输出旋转轴指令

和残差动作

。技能策略基于预训练的绕轴旋转策略 [6],通过Transformer编码时序观测(关节位置、深度图像嵌入dt),生成关节目标位置

关键设计:

· 残差动作:通过

,高层策略可修正低级技能的执行偏差。例如,当物体因摩擦不足发生滑动时,残差动作可补偿轨迹误差。

· 技能反馈:低级策略输出的特征向量zt编码物体几何属性(如形状、惯性),为高层策略提供隐式物体信息,避免显式建模的复杂性。

· 公式分析:技能策略的观测序列

包含历史关节位置、动作和深度图像嵌入,通过Transformer提取时序特征。这种设计使策略能够捕捉物体运动的动态特性。

4.2 通用状态估计器

状态估计器ϕ以时序本体感知(关节位置θt、控制误差qt−at−1)、低级反馈zt和先前估计状态

为输入,递归预测物体姿态

。其训练目标是最小化预测姿态与仿真中真实姿态的ℓ2误差。

创新点:

· 模块化训练:状态估计器与策略分开训练,利用仿真中生成的数据集

,避免端到端训练的不稳定性。

· 容错机制:当预测误差超过阈值(如旋转偏差 >0.8 rad 或位置偏差 >3 cm)时重置估计器,防止误差累积导致失效。

公式分析:

输入特征

的拼接,通过Transformer捕捉长时序依赖。这种设计使估计器能够利用历史信息纠正瞬时噪声。

实验

5.1 策略分层优势

在噪声环境下(图3),分层策略的收敛速度比基线快8倍,且在噪声标准差增至0.15 rad时仍保持稳定,而基线策略完全失效。这是因为预训练低级技能提供了结构化动作空间,减少了无效探索。消融实验(图6)表明,移除残差动作或技能反馈会使成功率下降10-15%,验证了二者对性能的关键作用。

5.2 状态估计器性能

使用估计器替代仿真真实状态后(表1),分层策略的成功率下降约13%,但仍显著优于基线(75.24% vs. 52.32%)。能量指标(如扭矩、关节加速度)显示分层策略动作更平滑,利于现实迁移。可视化结果(图5)表明,即使在物体滑动时,估计器仍能提供可靠的姿态预测。

5.3 现实世界实验

在六种物体(包括训练集外的立方体)上测试,单轴旋转任务成功率超过80%,多轴任务约70%(图7)。失败案例主要源于小物体(如微型立方体)的操控难度,突显触觉反馈的必要性。成功因素归因于:1)可迁移的低级技能;2)规划策略的闭环反馈设计。

结论与展望

本文通过分层策略和通用状态估计器的协同设计,实现了高效、鲁棒的手内物体重定向。其核心贡献在于将复杂任务分解为可复用低级技能,并通过反馈机制实现动态纠错。然而,系统仍依赖低级技能的精确执行,且姿态误差会随时间累积。未来可结合触觉传感提升滑动检测能力,或引入视觉-触觉融合实现长时序姿态跟踪。

公式总结:

· 奖励函数

· 状态估计损失

· 残差动作

这些公式共同构成了系统优化与鲁棒性的数学基础,体现了从理论设计到工程实现的紧密衔接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除系统重定向迁移论文设计

本文标签: 技能分层手内物体重定向的案例研究