admin管理员组文章数量:1130349
Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv/abs/2312.14074
最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在指令跟随和2D图像理解方面表现出了潜力。虽然这些模型很强大,但它们尚未被开发成能够理解更具挑战性的3D物理场景,特别是在稀疏的户外LiDAR数据方面。在本文中,我们引入了LiDAR-LLM,该模型以原始LiDAR数据作为输入,并利用LLMs的卓越推理能力来全面理解户外3D场景。我们的LiDAR-LLM的核心见解是将3D户外场景认知重新构想为一个语言建模问题,涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言,由于缺乏3D LiDAR-文本配对数据,我们引入了一个三阶段的训练策略,并生成相关数据集,逐步将3D模态与LLMs的语言嵌入空间对齐。此外,我们设计了一个视图感知变压器(VAT)来连接3D编码器和LLM,有效地弥合了模态差距,并增强了LLM对视觉特征的空间定位理解。我们的实验表明,LiDAR-LLM具有理解关于3D场景的各种指令并进行复杂的空间推理的优越能力。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1,而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。网页链接:https://sites.google/view/lidar-llm
图1. LiDAR-LL
Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv/abs/2312.14074
最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在指令跟随和2D图像理解方面表现出了潜力。虽然这些模型很强大,但它们尚未被开发成能够理解更具挑战性的3D物理场景,特别是在稀疏的户外LiDAR数据方面。在本文中,我们引入了LiDAR-LLM,该模型以原始LiDAR数据作为输入,并利用LLMs的卓越推理能力来全面理解户外3D场景。我们的LiDAR-LLM的核心见解是将3D户外场景认知重新构想为一个语言建模问题,涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言,由于缺乏3D LiDAR-文本配对数据,我们引入了一个三阶段的训练策略,并生成相关数据集,逐步将3D模态与LLMs的语言嵌入空间对齐。此外,我们设计了一个视图感知变压器(VAT)来连接3D编码器和LLM,有效地弥合了模态差距,并增强了LLM对视觉特征的空间定位理解。我们的实验表明,LiDAR-LLM具有理解关于3D场景的各种指令并进行复杂的空间推理的优越能力。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1,而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。网页链接:https://sites.google/view/lidar-llm
图1. LiDAR-LL
本文标签: 论文LLMEXPLORINGarxivLiDAR
版权声明:本文标题:[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1754378835a2679274.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论