admin管理员组文章数量:1130349
原文链接:https://openaccess.thecvf/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf
1. 引言
体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。
本文提出三视图(TPV)表达3D场景。为得到空间中一个点的特征,首先将其投影到三视图平面上,使用双线性插值获取各投影点的特征。然后对3个投影点特征进行求和,得到3D点的综合特征。这样,可以以任意分辨率描述3D场景,并对不同的3D点产生不同的特征。此外,本文还提出基于Transformer的编码器(TPVFormer),以从2D图像获取TPV特征。首先,在TPV网格查询与2D图像特征之间使用图像交叉注意力,将2D信息提升到3D。然后,在TPV特征之间使用跨视图混合注意力进行TPV跨平面交互。
本文进行的任务为3D语义占用估计,其中训练时只有稀疏激光雷达语义标签,但测试时需要所有体素的语义预测,如上图所示。但由于没有基准,只能进行定性分析,或在两个代理任务上进行定量分析:激光雷达分割(稀疏训练、稀疏测试)和3D语义场景补全(密集训练、密集测试)。两任务均仅使用图像数据;对激光雷达分割任务,仅使用激光雷达点云进行点查询以计算评估指标。
3. 提出的方法
3.1 将BEV推广到TPV
本文提出三视图(TPV)表达,不需像BEV表达一样压缩某轴,且可以避免体素表达的立方复杂度,如上图所示。具体来说,学习3个轴对齐的正交平面:
T = [ T H W , T D H , T W D ] , T H W ∈ R H × W × C , T D H ∈ R D × H × C , T W D ∈ R W × D × C T=[T^{HW},T^{DH},T^{WD}],T^{HW}\in\mathbb{R}^{H\times W\times C},T^{DH}\in\mathbb{R}^{D\times H\times C},T^{WD}\in\mathbb{R}^{W\times D\times C} T=[THW,TDH,TWD],THW∈RH×W×C,TDH∈RD×H×C,TWD∈RW×D×C
分别表达俯视图、侧视图和前视图。
点查询的形式:给定世界坐标系下的查询点 ( x , y , z ) (x,y,z) (x,y,z),TPV表达首先聚合其在三视图平面上的投影,以得到点的综合描述。设投影到TPV平面的坐标为 [ ( h , w ) , ( d , h ) , ( w , d ) ] [(h,w),(d,h),(w,d)] [(h,w),(d,h),(w,d)],采样的特征为 [ t h w , t d h , t w d ] [t_{hw},t_{dh},t_{wd}] [thw,tdh,twd],则聚合特征为:
t i j = S ( T , ( i , j ) ) = S ( T , P I J ( x , y , z ) ) , ( i , j ) ∈ { ( h , w ) , ( d , h ) , ( w , d ) } f x y z = A ( t h w , t d h , t w d ) t_{ij}=\mathcal{S}(T,(i,j))=\mathcal{S}(T,\mathcal{P}_{IJ}(x,y,z)),(i,j)\in\{(h,w),(d,h),(w,d)\}\\ f_{xyz}=\mathcal{A}(t_{hw},t_{dh},t_{wd}) tij=S(T,(i,j))=S(T,PIJ(x,y,</
原文链接:https://openaccess.thecvf/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf
1. 引言
体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。
本文提出三视图(TPV)表达3D场景。为得到空间中一个点的特征,首先将其投影到三视图平面上,使用双线性插值获取各投影点的特征。然后对3个投影点特征进行求和,得到3D点的综合特征。这样,可以以任意分辨率描述3D场景,并对不同的3D点产生不同的特征。此外,本文还提出基于Transformer的编码器(TPVFormer),以从2D图像获取TPV特征。首先,在TPV网格查询与2D图像特征之间使用图像交叉注意力,将2D信息提升到3D。然后,在TPV特征之间使用跨视图混合注意力进行TPV跨平面交互。
本文进行的任务为3D语义占用估计,其中训练时只有稀疏激光雷达语义标签,但测试时需要所有体素的语义预测,如上图所示。但由于没有基准,只能进行定性分析,或在两个代理任务上进行定量分析:激光雷达分割(稀疏训练、稀疏测试)和3D语义场景补全(密集训练、密集测试)。两任务均仅使用图像数据;对激光雷达分割任务,仅使用激光雷达点云进行点查询以计算评估指标。
3. 提出的方法
3.1 将BEV推广到TPV
本文提出三视图(TPV)表达,不需像BEV表达一样压缩某轴,且可以避免体素表达的立方复杂度,如上图所示。具体来说,学习3个轴对齐的正交平面:
T = [ T H W , T D H , T W D ] , T H W ∈ R H × W × C , T D H ∈ R D × H × C , T W D ∈ R W × D × C T=[T^{HW},T^{DH},T^{WD}],T^{HW}\in\mathbb{R}^{H\times W\times C},T^{DH}\in\mathbb{R}^{D\times H\times C},T^{WD}\in\mathbb{R}^{W\times D\times C} T=[THW,TDH,TWD],THW∈RH×W×C,TDH∈RD×H×C,TWD∈RW×D×C
分别表达俯视图、侧视图和前视图。
点查询的形式:给定世界坐标系下的查询点 ( x , y , z ) (x,y,z) (x,y,z),TPV表达首先聚合其在三视图平面上的投影,以得到点的综合描述。设投影到TPV平面的坐标为 [ ( h , w ) , ( d , h ) , ( w , d ) ] [(h,w),(d,h),(w,d)] [(h,w),(d,h),(w,d)],采样的特征为 [ t h w , t d h , t w d ] [t_{hw},t_{dh},t_{wd}] [thw,tdh,twd],则聚合特征为:
t i j = S ( T , ( i , j ) ) = S ( T , P I J ( x , y , z ) ) , ( i , j ) ∈ { ( h , w ) , ( d , h ) , ( w , d ) } f x y z = A ( t h w , t d h , t w d ) t_{ij}=\mathcal{S}(T,(i,j))=\mathcal{S}(T,\mathcal{P}_{IJ}(x,y,z)),(i,j)\in\{(h,w),(d,h),(w,d)\}\\ f_{xyz}=\mathcal{A}(t_{hw},t_{dh},t_{wd}) tij=S(T,(i,j))=S(T,PIJ(x,y,</
本文标签: 原文链接perspectiveTriview
版权声明:本文标题:【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1758737122a2783528.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论