LLM-Guided UAV 任务规划:从推理到执行的前沿

深入解析 LLM 做 UAV 任务规划的三大范式:LLM as Planner、LLM+PDDL 符号规划、LLM+RAG,覆盖 UniPlan(CVPR 2026)、双进程架构(IROS 2026)等前沿工作

LLM-Guided UAV 任务规划:从推理到执行的前沿

UAV 智能化系列 · 第X+1篇 聚焦:LLM 作为任务规划器、符号规划集成、实时推理架构


1. 为什么 LLM 适合 UAV 任务规划?

UAV 任务规划的挑战在于开放世界的不确定性

传统规划(基于模型):
输入:精确目标状态 + 精确环境模型
输出:最优动作序列
局限:模型不准就崩溃,无法处理语言目标

LLM 规划(基于知识):
输入:自然语言指令 + 视觉观测 + 世界知识
输出:可执行动作序列
优势:泛化性强、零样本理解新任务

LLM 的优势:


2. LLM 做任务规划的范式

2.1 范式一:LLM as Planner(直接输出动作)

代表工作:

ReAct(Reasoning + Acting)

SayCan(PaLM-SayCan, 2022)

LM-Nav(ICRA 2023)

指令:"fly to the building with the red roof, then check the parking lot"

LLM 解析:["red roof building", "parking lot"]

CLIP 匹配:视觉查询找到对应图像区域

优化器:生成平滑飞行轨迹

2.2 范式二:LLM + PDDL 符号规划

代表工作:

UniPlan(CVPR 2026)

论文: UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation 作者: Haoming Ye, Yunxiao Xiao, Cewu Lu et al. 来源: CVPR 2026

核心思想: 将所有任务(导航、抓取、放置)统一建模为 PDDL(Planning Domain Definition Language) 问题:

在 UAV 上的适配:

VLM 感知 → PDDL problem 生成 → 经典规划器 → UAV 动作序列

优势:

挑战:


2.3 范学三:LLM + RAG(检索增强生成)

GenerativeMPC(arXiv, 2026)

论文: GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation 作者: Marcelino Julio Fernando et al. 来源: arXiv, April 2026

核心思想:

VLM 感知当前场景 → 检索相关操作知识库 → RAG 生成操作建议 → MPC 执行

关键技术:

  1. 知识检索:从操作知识库(包含机器人操控经验数据)检索与当前场景最相关的示例
  2. Virtual Impedance:生成柔顺控制参数,避免刚性碰撞
  3. RAG 过滤:确保 LLM 输出在物理上可执行

在 UAV 上的适配:


3. 实时推理架构

3.1 双进程架构(IROS 2026)

论文: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation 作者: Joonhee Lee, Hyunseung Shin, Jeonggil Ko 来源: IROS 2026, arXiv:2601.xxxxx

核心设计:

┌─────────────────────────────────────────────┐
│           System Architecture               │
│                                             │
│  Process 1 (Slow): VLM Reasoning Thread     │
│  ┌─────────────────────────────────────┐   │
│  │ VLM: "What should I do next?"       │   │
│  │ Frequency: ~0.2-1 Hz                 │   │
│  │ Output: Navigation goal / decision  │   │
│  └─────────────────────────────────────┘   │
│              ↓ goal                        │
│  Process 2 (Fast): Control Execution Thread│
│  ┌─────────────────────────────────────┐   │
│  │ MPC: Track trajectory to goal        │   │
│  │ Frequency: ~100 Hz                   │   │
│  │ Output: Motor control signals        │   │
│  └─────────────────────────────────────┘   │
└─────────────────────────────────────────────┘

设计原则:


3.2 分层规划框架

高层(LLM/VLM,秒级):

任务理解 → 子目标分解 → 全局路径规划 → 授权低层执行

中层(可微优化,100ms级):

RRT*/MPC → 局部路径重规划 → 平滑轨迹生成

低层(PID/MPC,毫秒级):

姿态控制 → 电机分配 → 执行

4. 关键算法深度

4.1 CoNVO(Conditional Neural Value Optimization)

将 LLM 规划与价值迭代结合:

4.2 LLM Roadmap

论文核心思想:

4.3 Voxposer

论文: VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models 来源: CoRL 2023

核心贡献:

在 UAV 上的延伸:


5. 世界模型辅助规划

5.1 Why World Model?

LLM 的知识是静态的,但 UAV 环境是动态的:

世界模型(World Model)让 UAV 能够预测未来

当前状态 + 动作 → 世界模型 → 预测未来状态序列
LLM 在预测的未来状态序列上做规划(Plan over imagined futures)

5.2 论文代表

Dreamer系列(Daniel Hafner, Jürg Widmer, etc.)

VMP(Video Motion Planning)


6. 安全与验证

6.1 为什么安全是关键

UAV 在城市飞行时,决策失误可能造成人员伤亡。LLM 的概率性输出与航空安全要求的确定性保证之间存在根本矛盾。

6.2 安全框架

CBF(Control Barrier Functions):

Formal Verification:

Shielding:


7. 前沿热点与未来方向

7.1 端到端 VLA(Vision-Language-Action)

最新趋势: 跳过”感知→规划→控制”的分层设计,直接从 VLM 输出 action token

代表工作:

挑战:

7.2 多机协同 LLM 规划

SysNav(arXiv, March 2026)

论文: SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation 作者: Haokun Zhu et al. 来源: arXiv:2603.xxxxx

核心贡献:

7.3 Physical Intelligence × UAV


8. 总结与建议

维度当前最佳未来方向
规划范式双进程架构(实时可行)端到端 VLA(长期目标)
世界知识RAG(可靠但慢)世界模型(快速但需训练)
安全CBF + Shielding形式化验证(完全保证)
边缘部署4-bit LLaVA(勉强实时)专用芯片(NPU/TPU)

给你的建议:

  1. 最快出成果路线:双进程架构 + LLaVA-7B + 无人机平台
  2. 最有创新空间:VLM + 安全验证框架(目前几乎没人做)
  3. 长期布局:收集你自己的 UAV 操控数据,训练专用 VLA 模型

📚 参考文献

  1. Ye et al. UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation. CVPR 2026.
  2. Lee et al. A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation. IROS 2026.
  3. Fernando et al. GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance. arXiv:2604.xxxxx, 2026.
  4. Zhu et al. SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation. arXiv:2603.xxxxx, 2026.
  5. Huang et al. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models. CoRL 2023.
  6. Brohan et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.xxxxx, 2023.
  7. Zhou et al. CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM. arXiv:2601.xxxxx, 2026.