LLM-Guided UAV 任务规划：从推理到执行的前沿

UAV 智能化系列 · 第X+1篇 聚焦：LLM 作为任务规划器、符号规划集成、实时推理架构

1. 为什么 LLM 适合 UAV 任务规划？

UAV 任务规划的挑战在于开放世界的不确定性：

传统规划（基于模型）：
输入：精确目标状态 + 精确环境模型
输出：最优动作序列
局限：模型不准就崩溃，无法处理语言目标

LLM 规划（基于知识）：
输入：自然语言指令 + 视觉观测 + 世界知识
输出：可执行动作序列
优势：泛化性强、零样本理解新任务

LLM 的优势：

世界知识：预训练蕴含丰富的物理常识（“水会流动”、“汽车比人快”）
零样本推理：无需针对每个任务单独训练
多步骤规划：将复杂任务分解为子目标链（Chain-of-Thought）

2. LLM 做任务规划的范式

2.1 范式一：LLM as Planner（直接输出动作）

代表工作：

ReAct（Reasoning + Acting）

核心思想：LLM 交替进行”推理”和”动作”
每步：obs → think → action → next_obs
适用：状态可观测、环境反馈明确的场景
在 UAV 上的适配：需要快速的 action→obs 循环

SayCan（PaLM-SayCan, 2022）

将 LLM 的”能力描述”与物理”可行性”结合
机器人说自己”能做什么”，LLM 决定”应该做什么”
启示： UAV 可以结合自身状态（电量、飞行限制）过滤不可行动作

LM-Nav（ICRA 2023）

三个 LLM 模块协作：文本→地标序列→稠密轨迹
无需训练，直接用预训练 LLM + CLIP
在 UAV 无人机上验证：自然语言路径点跟踪

指令："fly to the building with the red roof, then check the parking lot"
    ↓
LLM 解析：["red roof building", "parking lot"]
    ↓
CLIP 匹配：视觉查询找到对应图像区域
    ↓
优化器：生成平滑飞行轨迹

2.2 范式二：LLM + PDDL 符号规划

代表工作：

UniPlan（CVPR 2026）

论文： UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation 作者： Haoming Ye, Yunxiao Xiao, Cewu Lu et al. 来源： CVPR 2026

核心思想： 将所有任务（导航、抓取、放置）统一建模为 PDDL（Planning Domain Definition Language） 问题：

domain.pddl：定义动作（move, grasp, place）和前置条件
problem.pddl：从 VLM 输出提取对象和目标状态
经典规划器（FF / FastDownward）求解最优动作序列

在 UAV 上的适配：

VLM 感知 → PDDL problem 生成 → 经典规划器 → UAV 动作序列

优势：

规划结果可解释、可验证
保证任务完成的数学证明
适合安全关键场景（城市空域飞行）

挑战：

PDDL 建模本身是瓶颈（需要领域专家）
UAV 的连续动态特性与 PDDL 离散假设不完全兼容
解决思路： PDDL 处理高层任务分解，MPC 处理低层轨迹执行

2.3 范学三：LLM + RAG（检索增强生成）

GenerativeMPC（arXiv, 2026）

论文： GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation 作者： Marcelino Julio Fernando et al. 来源： arXiv, April 2026

核心思想：

VLM 感知当前场景 → 检索相关操作知识库 → RAG 生成操作建议 → MPC 执行

关键技术：

知识检索：从操作知识库（包含机器人操控经验数据）检索与当前场景最相关的示例
Virtual Impedance：生成柔顺控制参数，避免刚性碰撞
RAG 过滤：确保 LLM 输出在物理上可执行

在 UAV 上的适配：

检索建筑规范（高度限制、禁飞区）
检索历史任务经验（相似天气条件下的飞行参数）
检索安全协议（最小避障距离、应急程序）

3. 实时推理架构

3.1 双进程架构（IROS 2026）

论文： A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation 作者： Joonhee Lee, Hyunseung Shin, Jeonggil Ko 来源： IROS 2026, arXiv:2601.xxxxx

核心设计：

┌─────────────────────────────────────────────┐
│           System Architecture               │
│                                             │
│  Process 1 (Slow): VLM Reasoning Thread     │
│  ┌─────────────────────────────────────┐   │
│  │ VLM: "What should I do next?"       │   │
│  │ Frequency: ~0.2-1 Hz                 │   │
│  │ Output: Navigation goal / decision  │   │
│  └─────────────────────────────────────┘   │
│              ↓ goal                        │
│  Process 2 (Fast): Control Execution Thread│
│  ┌─────────────────────────────────────┐   │
│  │ MPC: Track trajectory to goal        │   │
│  │ Frequency: ~100 Hz                   │   │
│  │ Output: Motor control signals        │   │
│  └─────────────────────────────────────┘   │
└─────────────────────────────────────────────┘

设计原则：

快进程（MPC）：毫秒级反应，处理实时障碍躲避
慢进程（VLM）：秒级推理，处理高层决策
解耦关键：VLM 不在关键路径上，不影响控制频率

3.2 分层规划框架

高层（LLM/VLM，秒级）：

任务理解 → 子目标分解 → 全局路径规划 → 授权低层执行

中层（可微优化，100ms级）：

RRT*/MPC → 局部路径重规划 → 平滑轨迹生成

低层（PID/MPC，毫秒级）：

姿态控制 → 电机分配 → 执行

4. 关键算法深度

4.1 CoNVO（Conditional Neural Value Optimization）

将 LLM 规划与价值迭代结合：

LLM 提供先验偏好（哪些动作更合理）
价值迭代提供最优性保证
比纯 LLM 规划更鲁棒，比纯规划更灵活

4.2 LLM Roadmap

论文核心思想：

构建” roadmap graph”：关键航点的稀疏连接图
LLM 在 roadmap 上做高层次搜索
局部细节由控制算法填充

4.3 Voxposer

论文： VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models 来源： CoRL 2023

核心贡献：

LLM 输出3D 空间热力图（composable 3D value map）
热力图编码”应该去哪里”、“应该避开什么”
直接用作轨迹优化的奖励函数

在 UAV 上的延伸：

VLM 输出 3D occupancy 热力图
热力图驱动 MPC 代价函数
VoxPoser for UAV = “3D spatial affordance from language”

5. 世界模型辅助规划

5.1 Why World Model?

LLM 的知识是静态的，但 UAV 环境是动态的：

风会变
障碍物会移动
GNSS 信号会漂移

世界模型（World Model）让 UAV 能够预测未来：

当前状态 + 动作 → 世界模型 → 预测未来状态序列
LLM 在预测的未来状态序列上做规划（Plan over imagined futures）

5.2 论文代表

Dreamer系列（Daniel Hafner, Jürg Widmer, etc.）

基于 RSSM 动态模型
在 imagined future 上做强化学习
已在机器人上验证（机器人手臂、无人车）

VMP（Video Motion Planning）

用视频生成模型做运动规划
生成未来帧 → 提取运动向量 → 控制 UAV

6. 安全与验证

6.1 为什么安全是关键

UAV 在城市飞行时，决策失误可能造成人员伤亡。LLM 的概率性输出与航空安全要求的确定性保证之间存在根本矛盾。

6.2 安全框架

CBF（Control Barrier Functions）：

ASMA（前述）将 CBF 引入 UAV VLN
保证 unsafe 状态永不可达

Formal Verification：

使用 TLA+ / NuSMV 做状态机验证
LLM 规划结果经过模型检验后才执行

Shielding：

底层保护器（Shield）：监控 LLM 输出，拦截不安全动作
上层 LLM：专注任务完成，不考虑安全细节
类似自动驾驶的” Guardian Angel”架构

7. 前沿热点与未来方向

7.1 端到端 VLA（Vision-Language-Action）

最新趋势： 跳过”感知→规划→控制”的分层设计，直接从 VLM 输出 action token。

代表工作：

RT-2（Google Robotics）：将 VLM 直接微调输出动作
π₀（Physical Intelligence）：面向人形机器人的 VLA
UAV 版本（正在涌现）：类似思想应用到无人机

挑战：

动作空间的连续性 vs 语言的离散性
安全验证困难（端到端黑箱）
数据稀缺（需要大规模 robot teleoperation 数据）

7.2 多机协同 LLM 规划

SysNav（arXiv, March 2026）

论文： SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation 作者： Haokun Zhu et al. 来源： arXiv:2603.xxxxx

核心贡献：

多 agent 协同导航，跨不同 robot 平台
LLM 做高层协调（谁去哪个区域）
分布式感知融合（各 agent 共享视野）

7.3 Physical Intelligence × UAV

Foundation Models for Manipulation → Foundation Models for Flight
未来可能出现专用的” UAV 大脑”预训练模型
类似 LLaVA 但专精 3D 空间推理 + 飞行动力学

8. 总结与建议

维度	当前最佳	未来方向
规划范式	双进程架构（实时可行）	端到端 VLA（长期目标）
世界知识	RAG（可靠但慢）	世界模型（快速但需训练）
安全	CBF + Shielding	形式化验证（完全保证）
边缘部署	4-bit LLaVA（勉强实时）	专用芯片（NPU/TPU）

给你的建议：

最快出成果路线：双进程架构 + LLaVA-7B + 无人机平台
最有创新空间：VLM + 安全验证框架（目前几乎没人做）
长期布局：收集你自己的 UAV 操控数据，训练专用 VLA 模型

📚 参考文献

Ye et al. UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation. CVPR 2026.
Lee et al. A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation. IROS 2026.
Fernando et al. GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance. arXiv:2604.xxxxx, 2026.
Zhu et al. SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation. arXiv:2603.xxxxx, 2026.
Huang et al. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models. CoRL 2023.
Brohan et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.xxxxx, 2023.
Zhou et al. CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM. arXiv:2601.xxxxx, 2026.