[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding-369IT编程

admin管理员组
文章数量:1130349

Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv/abs/2312.14074

最近，大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在指令跟随和2D图像理解方面表现出了潜力。虽然这些模型很强大，但它们尚未被开发成能够理解更具挑战性的3D物理场景，特别是在稀疏的户外LiDAR数据方面。在本文中，我们引入了LiDAR-LLM，该模型以原始LiDAR数据作为输入，并利用LLMs的卓越推理能力来全面理解户外3D场景。我们的LiDAR-LLM的核心见解是将3D户外场景认知重新构想为一个语言建模问题，涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言，由于缺乏3D LiDAR-文本配对数据，我们引入了一个三阶段的训练策略，并生成相关数据集，逐步将3D模态与LLMs的语言嵌入空间对齐。此外，我们设计了一个视图感知变压器（VAT）来连接3D编码器和LLM，有效地弥合了模态差距，并增强了LLM对视觉特征的空间定位理解。我们的实验表明，LiDAR-LLM具有理解关于3D场景的各种指令并进行复杂的空间推理的优越能力。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1，而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。网页链接：https://sites.google/view/lidar-llm

图1. LiDAR-LL

本文标签：论文 LLM EXPLORING arxiv LiDAR

版权声明：本文标题：[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1754378835a2679274.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

更多相关文章

《A Comprehensive Survey on Transfer Learning》论文解读

信息系统项目管理--论文分析笔记

Learning to Rank: From Pairwise Approach to Listwise Approach论文笔记

大模型剪枝（一）解读Wanda论文: A Simple and Effective Pruning Approach for Large Language Models

【论文阅读】Search-Based Testing Approach for Deep Reinforcement Learning Agents

Network Trimming: A Data-Driven Neuron Pruning Approach towards Efficient Deep Architectures论文翻译笔记

【论文阅读笔记】Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from Single RGB

Bootstrap your own latent ：A new approach to self-supervised Learning（BYOL）（论文解读）

【论文翻译】Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

论文阅读RoBERTa: A Robustly Optimized BERT Pretraining Approach

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

论文阅读：GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators

清华大学王晨阳：轻量级Top-K推荐框架及相关论文介绍

2025年AI论文工具精选榜单，助你高效完成学术写作任务。

【论文翻译】Deep Recurrent Q-Learning for Partially Observable MDPs

计算机组装与维护 参考文献,浅谈计算机的日常维护论文

学术写作|第二篇论文写作记录|GPT4论文润色Prompt

lidar点云比赛-Southlidar软件使用入门

精选3款论文翻译神器，直接翻译PDF全文英文文献！

论文翻译器：pdf 英文论文一键转换成中英文对照的文档

发表评论

推荐文章

如何在直播、会议、视频中使用虚拟形象

雨听 | 英语学习笔记（十四）~作文范文：电子设备能促进教育吗？

图上的对抗与攻击精选论文列表(​2021相关论文一览)

docker安装windows镜像，实战案例

不可不知！AI应用架构师的虚拟购物架构指南

热门文章

Atmosphere社区生态：第三方插件与工具

【免费下载】 优化你的vivooppo手机：内置软件卸载与禁用指南

手机锁屏后WiFi流量数据流量消耗的深层原因与解决方案

Linux常用的100种命令大集合

一款好用的ChatGPT工具，安卓app

锐捷（ruijie）交换机enable密码重置

ENSP 防火墙USG6000V1配置学习实验

win10系统如何打开telnet服务器,win10系统安装并开启Telnet服务的处理步骤

有的软件能联网，有的软件不能联网怎么办

基于keras的seq2seq中英文翻译实现

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

计算机组装与维护参考文献,浅谈计算机的日常维护论文

图上的对抗与攻击精选论文列表(2021相关论文一览)

【免费下载】优化你的vivooppo手机：内置软件卸载与禁用指南

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程