Vision-Language Models for UAV Navigation:视觉-语言导航的基础与前沿

综述 VLM+UAV 导航的基础范式、核心架构与代表性工作,覆盖 LogisticsVLN、OmniVLN、ASMA 等最新论文,CVPR/ICRA/IROS 2024-2026

Vision-Language Models for UAV Navigation:视觉-语言导航的基础与前沿

UAV 智能化系列 · 第X篇 聚焦:VLM+UAV 的基础范式、核心架构与代表性工作


1. 背景:从语言指令到自主飞行

传统的 UAV 路径规划依赖精确的数学目标函数(如最短路径、最小能量消耗),但现实世界的任务指令往往是自然语言的模糊描述

这些指令无法直接转化为数学优化目标,但可以被 VLM(Vision-Language Model)理解和推理。Vision-Language Navigation(VLN)正是解决这一问题的核心研究方向——让机器人( UAV)根据自然语言指令在三维物理空间中导航。


2. 任务定义:VLN 的核心问题

VLN 任务可以形式化为:

给定一个自然语言指令 和起始视觉观测 ,让 agent 执行一系列动作 ,最终到达指令描述的目标位置。

关键挑战在于:

  1. 语义 grounding:将语言中的空间关系(“左边”、“后面""above”)映射到物理空间
  2. 长视野推理:指令通常描述复杂的多步骤任务
  3. 零样本泛化:未见过的建筑、环境、物体
  4. 三维特性:UAV 与地面 robot 不同,具有完整的 3D 运动能力

3. 代表性工作

3.1 LogisticsVLN:面向末端配送的 UAV VLN(arXiv, 2025)

论文: LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs 作者: Xinyuan Zhang, Yonglin Tian, Fei Lin et al. 来源: arXiv, 2025 | 无人配送 + VLN 交叉工作

核心贡献:

方法框架:

用户指令:"送包裹到红色大门旁边"

VLM 语义解析(物体检测 + 空间关系)

拓扑地图匹配(检测到的地标 vs 先验地图)

路径规划(全局粗规划 + 局部视觉重规划)

MPC 控制器执行

关键洞察: 这是目前最接近实际 UAV 配送场景的 VLN 工作,将 GPT-4V 级别的视觉语言模型与物理控制层做了端到端整合。


3.2 OmniVLN:空地跨平台的端侧 VLN(arXiv, 2026)

论文: OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms 作者: Zhongyuang Liu, Min He, Shaonan Yu et al. 来源: arXiv, March 2026

核心贡献:

技术创新:

  1. 3D token 压缩:将 3D 空间信息编码为紧凑 token,减少 LLM 输入 token 数量
  2. 动态视野管理:根据导航需求自适应调整关注区域
  3. 轻量化 VLM backbone:基于 Qwen-VL 或 LLaVA 架构的端侧版本

3.3 ASMA:安全边界感知的 UAV VLN(arXiv, 2024/2025)

论文: ASMA: An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions 来源: arXiv, September 2024

核心贡献:

为什么重要: 大多数 VLN 工作关注导航精度,忽略安全性。ASMA 填补了这一空白—— UAV 可以在”听不懂指令”和”撞墙”之间做安全权衡。


3.4 Vision-and-Language Navigation for UAVs: 综述(arXiv, 2026)

论文: Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap 作者: Hanxuan Chen, Jie Zheng, Siqi Yang et al. 来源: arXiv, April 2026 | 最新综述

综述覆盖:


4. 技术架构分解

4.1 感知层(Perception)

相机配置:

类型优势劣势
前向 RGB成熟、廉价视野窄、信息有限
全向相机360° 感知分辨率低、畸变大
深度相机稠密深度户外失效、范围有限
多目相机立体三角标定复杂

感知模块职责:

  1. 物体检测 + 语义分割(Grounding DINO、YOLO-World)
  2. 空间关系提取(左右、上下、相对距离)
  3. 场景图构建(物体 + 关系 + 拓扑)

4.2 理解层(Understanding)

VLM 选型对比:

模型参数量视觉能力边缘部署代表工作
GPT-4V~1.8T极强学术研究
GPT-4o~200B极强云端 API
LLaVA-1.67B/13B/34B✅ (ONNX)本地部署
Qwen-VL7B/72B中文场景
CogVLM17B⚠️平衡方案

4.3 规划层(Planning)

现有规划范式:

  1. LLM as Planner:直接让 LLM 输出动作序列(ReAct、Reflexion)
    指令 → LLM 推理 → 动作序列 → 执行
  2. PDDL 符号规划:LLM 生成 PDDL 领域描述,经典规划器求解
    • 代表:UniPlan(CVPR 2026)
  3. 可学习规划:端到端模仿学习/强化学习
    • 优势:适应动态环境
    • 劣势:泛化性差

4.4 控制层(Control)

UAV 控制的特点:


5. 关键挑战

5.1 Sim2Real Gap

5.2 推理延迟 vs 实时控制

VLM推理延迟适用场景
GPT-4o1-3s云端离线规划
LLaVA-7B0.5-1s边缘延迟规划
LLaVA-3B0.2-0.5s边缘实时

解决方向:

5.3 三维空间推理

语言中的空间关系(“behind the tree”、“under the bridge”)在三维空间中并非简单投影。

研究前沿:


6. 数据集汇总

数据集平台规模特点
RxR地面126K 指令多语言、专家标注
VLN-CE地面61K 轨迹Matterport3D
AI-TODUAV~20K 指令空中视角、航拍
UAV-VLNUAV~10K城市峡谷场景
D3DROUUAV~5K动态障碍、真实飞行

7. 未来研究方向

  1. 多模态融合:RGB + 深度 + 事件相机 + 激光雷达
  2. 小样本适应:LoRA / QLoRA 微调适配特定城市环境
  3. 多机协同 VLN:多架 UAV 协作理解同一指令
  4. 世界模型辅助:整合 World Model 做未来状态预测
  5. 安全验证:形式化方法验证 VLN 决策安全性

📚 参考文献

  1. Zhang et al. LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs. arXiv:2505.xxxxx, 2025.
  2. Liu et al. OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms. arXiv:2603.xxxxx, 2026.
  3. Chen et al. Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap. arXiv:2604.xxxxx, 2026.
  4. ASMA. An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions. arXiv:2409.xxxxx, 2024.
  5. Blukis et al. Mapping Navigation Instructions to Continuous Control Actions with Position-Visitation Prediction. CoRL, 2018.
  6. Raychaudhuri et al. Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation. arXiv:2411.xxxxx, 2024.