NeLV
约 19345 字大约 64 分钟
2026-01-08
Liangqi Yuan, Student Member, IEEE, Chuhao Deng, Student Member, IEEE, Dong-Jun Han, Member, IEEE, Inseok Hwang, Member, IEEE, Sabine Brunswicker, and Christopher G. Brinton, Senior Member, IEEE
摘要
随着大语言模型(LLM)的飞速发展,其在各种自动化领域,尤其是在无人机(UAV)操作中的应用潜力,正日益受到关注。然而,当前的研究主要局限于小规模的无人机应用,多数工作仅关注玩具无人机的路径规划等孤立组件,而缺乏对中远程无人机系统在真实操作环境下的全面研究。大型无人机平台带来了独特的挑战,包括对基于机场的起降程序的严格要求、对复杂监管框架的遵守,以及具有更高任务期望的专业化操作能力。这篇立场性论文提出了新一代无人机大语言模型(NELV)系统——一个将大语言模型集成到多尺度无人机操作中的全面演示与自动化路线图。NELV 系统通过处理自然语言指令,借助五个关键技术组件来协调短、中、远程无人机任务:(i) 作为解析器的 LLM(LLM-as-Parser)用于指令解读,(ii) 路线规划器(Route Planner)用于确定兴趣点(POI),(iii) 路径规划器(Path Planner)用于生成航路点,(iv) 控制平台(Control Platform)用于执行可飞行的轨迹,以及 (v) 无人机监控。我们通过三个覆盖不同操作尺度的代表性用例——多无人机巡逻、多兴趣点配送和多跳中转——展示了该系统的可行性。在当前实现的基础上,我们进一步建立了一个五级自动化分类体系,该体系描绘了从当前作为解析器的 LLM(1级)到完全自主的作为自动驾驶仪的 LLM(5级)的演进路径,并明确了每个阶段的技术前提和研究挑战。项目主页(含代码与视频):https://liangqiyuan.github.io/NeLV/。
关键词——大语言模型,无人机,规划,自主系统
1. 引言
大语言模型的兴起已经改变了移动服务、车辆和机器人等众多领域 -。通过集成大语言模型,这些领域变得日益智能化和用户友好,实现了通过自然语言进行指挥和控制。人与大语言模型之间基于对话的控制方式,既增强了大语言模型理解上下文的能力,也方便了人类指导其执行操作 。在这些系统中,大语言模型扮演着多样化的角色。作为路由器的 LLM(LLM-as-Router)可以为人类飞行员协调任务分配和模型选择;作为智能体的 LLM(LLM-as-Agent)可以代表人类执行动作;而作为评判者的 LLM(LLM-as-Judge)则可以代替人类进行评估。大语言模型在系统中日益专业化的角色分工,通过明确的职责分配优化了其性能。因此,大语言模型正成为下一代自主控制和自动驾驶技术不可或缺的组成部分 。
无人机是下一代交通运输系统的重要组成部分 。根据美国联邦航空管理局(FAA)的数据,截至2025年3月,美国注册的无人机数量已超过100万架,并有427,335名遥控飞行员获得认证 。随着无人机数量的增加,现有的人类飞行员队伍已显得捉襟见肘,这成为限制无人机在交通运输中扮演更重要角色的瓶颈之一。如何让更少的人类飞行员操作单架无人机,或让一名人类飞行员控制多架无人机,仍然是一个持续的研究课题。这一挑战需要强大的自动化系统辅助人类飞行员处理信息、理解数据、建议操作、执行动作并进行有效沟通。大语言模型之所以成为强有力的候选者,不仅因为它们接受语言输入——这比其他命令输入方式效率高得多——还因为其强大的推理能力使其能够有效处理与无人机相关的信息 。
尽管已有大量文献关注用于无人机的大语言模型系统,但如表 1 所示,大多数研究仍局限于单一层面,例如仅使用大语言模型进行小型玩具无人机的规划。从人类语言输入到确定潜在路径节点,再到制定详细路径、与无人机平台集成并最终控制无人机,这一完整的系统性研究存在显著的空白。大部分文献仅涉及小型无人机的规划,而未考虑中远程无人机的规划。这两类无人机存在巨大差异。小型无人机通常是多旋翼飞行器,可以从任何地点起飞执行短距离任务,但载货能力有限且性能较低。而中远程无人机通常是固定翼飞机,需要机场基础设施并遵守严格的起降程序。它们还必须遵守 FAA 的规定,包括禁止飞越人群和避开空中交通管制区等要求。这些因素为用于无人机的大语言模型系统带来了全新的、独特的挑战 。
在本文中,我们提出了新一代无人机大语言模型(NELV)系统,如图 1 所示。这个由大语言模型驱动的无人机系统能够将人类的语言输入转化为对执行各种任务的短、中、远程无人机的自主控制。该系统集成了多个关键技术组件,包括作为解析器的 LLM、路线规划、路径规划和控制平台。人类飞行员可以访问每个组件的输入并进行干预,以控制或修改操作。尽管我们展望未来系统中大语言模型将在规划、控制和决策中扮演核心角色,但当前大语言模型的能力在安全攸关的无人机操作中仍然有限。因此,这篇立场性论文具有双重目的:(1)系统演示:我们展示了一个可行的实现,其中大语言模型负责自然语言解读(我们分类体系中的1级),而传统算法执行路线规划、路径规划和控制;(2)自动化路线图:我们建立了一个五级分类体系,该体系定义了技术要求,识别了关键挑战,并描绘了从当前作为解析器的 LLM 的能力到未来能够进行完全自主决策的作为自动驾驶仪的 LLM 系统的发展路径 。
图1:NELV 系统概览。
本文的贡献如下:
- 端到端的系统框架与实现:我们引入了 NELV,这是首个将大语言模型与多尺度无人机操作相结合的完整框架,实现了从自然语言输入到可执行飞行轨迹的全流程。据我们所知,NELV 是首个能够支持短、中、远程操作以及涉及多无人机巡逻、多兴趣点配送和多跳中转等复杂任务的、由大语言模型驱动的无人机系统。
- 五阶段流水线架构:我们开发了一个全面的流水线,包括:(i) 作为解析器的 LLM,通过与人类飞行员的对话式交互来迭代优化飞行计划并解读操作偏好;(ii) 路线规划器,考虑飞行员指定的约束和多目标优化标准;(iii) 路径规划器,规避包括管制空域和恶劣气象条件在内的限制区域;(iv) 控制平台,生成包含特定机场起降模式的可执行轨迹;以及 (v) 无人机监控器,提供具备安全飞行员干预能力的实时任务执行监控。
- 多尺度任务演示:我们通过三个覆盖不同操作尺度的代表性用例来展示系统的能力:(UC1) 短程多无人机巡逻,其中五架无人机对5公里半径内的森林区域进行监视;(UC2) 中程多兴趣点配送,包含两个配送目标;以及 (UC3) 远程多跳中转,从纽约飞往洛杉矶,中途有加油停靠点。该系统集成了实时的空域信息、人口密度数据和天气风险评估,以在美国大陆范围内的任何机场实现安全的自主操作。
- 五级自动化路线图:我们建立了一个系统的分类体系,定义了从当前能力到完全自主系统的演进过程:(L1) 作为解析器的 LLM 用于指令解读,(L2) 作为路线规划器的 LLM 用于战略性路线优化,(L3) 作为路径规划器的 LLM 用于战术性路径确定和碰撞规避,(L4) 作为执行器的 LLM 用于集成控制系统协调,以及 (L5) 作为自动驾驶仪的 LLM 用于完全自主的飞行操作。对于每个级别,我们都明确了具体的技术前提、所需的知识库和关键的研究挑战。
本文的其余部分组织如下。章节 2 回顾了关于用于无人机的大语言模型系统的现有文献。章节 3 介绍了 NELV 系统的整体架构和五个关键技术组件。在章节 4 中,我们展示了实验配置、使用的数据集以及三个展示系统能力的代表性用例。在章节 6 总结本文之前,我们在章节 5 讨论了未来研究方向和发展路径的五个层级。
2. 相关工作
A. 用于无人机的大语言模型
与传统机器学习方法相比,大语言模型的一个显著特点是其强大的推理和泛化能力,能够自主完成各种任务。这对于无人机尤为重要,包括上下文理解、感知、规划、决策等 。此外,大语言模型能够与人类飞行员进行更自然的基于语言的交流,从而减轻操作负担 ,并可能在未来让非专业用户也能操作无人机。与其他自动化任务(如自动驾驶)不同,无人机被分为短程、中程和远程,并可进一步分为固定翼、多旋翼等不同构型 。每种类型都需要不同的操作方法。由于多种因素,无人机操作比自动驾驶车辆面临更大的挑战。这些多样的构型和结构为大语言模型在无人机领域的部署和泛化带来了独特的挑战 。
构型、结构和操作方法的多样性也导致了缺乏用于大语言模型训练的大型无人机数据集,这是阻碍大语言模型在该领域深入发展的根本问题。目前,大多数数据集仅限于对地面物体(如人、车辆、道路、火灾、建筑物等)的鸟瞰视角检测 -,这仅占无人机任务的一小部分。与无人机控制、规划以及人机语言对话相关的数集非常稀少 。
因此,我们提出的 NELV 系统旨在填补这些研究空白。我们展示了一个完整的用于无人机的大语言模型系统工作流程,从语言输入到实际的无人机飞行控制。与相关文献侧重于复杂的计算机视觉任务(如识别地面物体)不同,我们强调无人机的规划、控制和飞行。值得注意的是,NELV 系统可以集成任何先进的视觉模型来完成各种任务,这使得我们的系统与其他视觉模型形成互补。最重要的是,我们证明了 NELV 系统可以操作短程、中程和远程无人机。这为读者开发各种无人机构型提供了一个可靠的平台 。
表1:LLM for UAV 系统相关文献对比
| 文献 | 年份 | 类型 | 关键主题 | 实现方式 | 短程 | 中程 | 远程 | 案例研究 |
|---|---|---|---|---|---|---|---|---|
| 2024 | 综述 | 用于无人机的大语言模型 | ||||||
| 2025 | 综述 | 用于无人机的大语言模型 | ||||||
| 2024 | 综述 | 用于无人机的生成式AI | ||||||
| 2024 | 综述 | 用于无人机网络的生成式AI | ||||||
| 2024 | 综述 | 用于无人机网络的生成式AI | ||||||
| 2024 | 基准测试 | 仿真平台 | 模拟器 | 城市无人机模拟器 | ||||
| 2023 | 研究 | 用于无人机规划的大语言模型 | 室内小型无人机 | 任务规划 | ||||
| 2023 | 研究 | 用于无人机规划的大语言模型 | 模拟器 | 任务规划 | ||||
| 2024 | 研究 | 用于无人机规划的大语言模型 | 室内小型无人机 | 物体检测 | ||||
| 2024 | 研究 | 用于无人机规划的大语言模型 | 室内小型无人机 | 障碍物预测 | ||||
| 2024 | 研究 | 用于无人机规划的大语言模型 | 室内小型无人机 | 任务规划 | ||||
| 2024 | 研究 | 用于无人机规划的大语言模型 | 室外小型无人机集群 | 编队 | ||||
| 本文工作 | 2025 | 立场性论文 | 作为解析器的LLM、路线规划、路径规划、控制平台、无人机监控 | 室外中型无人机 | ✓ | ✓ | ✓ | 多无人机巡逻、多兴趣点配送、多跳中转 |
B. 无人机自主系统
在无人机自主系统中,制定飞行计划是执行任务的前提。它包含五个基本阶段:起飞、航路飞行、任务执行、返航和降落 。这种结构对于固定翼无人机和大型无人机尤为重要,因为偏离这些既定程序可能引发严重的安全事故 。现有的无人机文献主要关注小型玩具无人机,特别是多旋翼构型,或者忽略了无人机的交通模式 。此外,文献中的无人机任务是由人类飞行员预先确定的,没有解决涉及模糊目标和众多备选方案的真实世界飞行规划挑战。例如,在加油操作中,飞行员会面临多个提供不同燃油价格的机场选项,人类飞行员会根据成本、质量、安全或其他因素进行选择。随后,在选定合适的节点后,具体的路径规划需要基于多重目标进行合理的三维规划 -,这提出了一个独特的挑战,即必须在确定无限可能航路点中的最优路径的同时,遵守 FAA 的规定。此外,轨迹是在路径规划的基础上,结合了起飞、降落和任务执行的交通模式 ,需要根据机场的具体规定进行适当配置。回顾我们 NELV 系统的目标,上述所有三个程序性步骤都需要考虑各种无人机类型、飞行航程、任务和其他变量,这带来了巨大的实现挑战 。
我们提出的 NELV 系统旨在集成和部署各种无人机构型以完成多样化的任务。规划问题从高层的节点选择,到具体的路径确定,最终到全面的轨迹规范,呈现出层级递进的结构。我们的 NELV 系统通过考虑如何在无人机任务中确定节点(例如从多个候选任务地点中选择),扩展了相关文献。这种方法不仅增强了任务的灵活性,促进了更具适应性和高度定制化的飞行操作,而且通过基于偏好的自适应飞行规划协议,显著降低了人类飞行员的认知负荷。此外,我们 NELV 系统的全面设计架构彻底解决了所有飞行环节,包括起飞、降落和特定任务的交通模式,为实际应用提供了可行的解决方案 。
3. 新一代无人机大语言模型系统
A. NELV 系统概览
NELV 系统通过人类飞行员的自然语言输入来解读任务,根据飞行规格进行路线规划,依据环境约束和空域限制执行路径规划,通过控制平台实现可执行轨迹,并最终监控无人机的飞行操作,如图 2 所示。当前的 NELV 系统由五个关键组件构成:(i) 作为解析器的 LLM 用于解读人类飞行员的指令,(ii) 路线规划器用于确定飞行轨迹沿线的节点,(iii) 路径规划器用于建立每对节点间的具体路径,(iv) 控制平台用于生成可执行轨迹,以及 (v) 无人机监控用于最终的飞行执行。飞行员在任何组件执行后,都可以通过图 2 中描绘的三个界面进行干预和修改系统输出,从而能够实时适应不理想的规划结果或不断变化的任务需求 。
图2:NELV 系统的操作框架与用户界面。左侧聊天框:飞行员通过自然语言指令与大语言模型交互。在收到初步飞行计划后,飞行员在可视化支持下进行路线和路径规划。顶部控制平台 :路径上传后,飞行员可以通过手动调整航路点来进一步优化任务。右侧无人机监控器:安全飞行员在操作过程中持续监控无人机的状态、位置和飞行行为,并可根据需要进行实时调整。
在数学上,NELV 系统的运作方式是构建一个无人机飞行图 G=(V,E,X,Y),其中 V 代表节点集合, E 代表边集合, X 是节点属性集合,而 Y 表示节点类型。
(i) 作为解析器的 LLM 根据人类飞行员描述的无人机任务(如森林火灾监视或超市物资配送)确定节点 v∈V 及其属性 X 和类型 Y。一个特定的森林区域或超市店铺构成一个节点 v∈V。这些节点具有不同的属性 x∈X,包括地理坐标(经纬度)、运营状态和拥堵程度。节点类型 y∈Y 代表指定的飞行模式和操作方式,例如飞机可能为超市配送执行空中投送,而机场则支持常规的起降程序。
(ii) 路线规划器基于图 G 进行初步的路线规划,其中路线是一系列节点的序列,可表示为:
ξ=[v1,v2,...,vN]
其中 vi∈V 且 N≥2 是一个整数,代表路线中的节点数量。路线 ξ 必须包含起飞和降落节点,这两个节点可以是同一个。此处的路线规划是多目标的,始终考虑任务完成度、飞行质量和成本之间的平衡。
(iii) 路径规划器基于初步路线 ξ 生成一个更详细、更具体的路径:
π=[v1,p1,2(1),p1,2(2),...,v2,p2,3(1),p2,3(2),...,vN]
其中 pi,i+1(j) 代表连接节点 vi 到节点 vi+1 的路径段中的第 j 个航路点。这种详细的路径规划综合考虑了 FAA 对各类空域的规定。
(iv) 控制平台将路径转化为可执行的轨迹:
ρ=[V1,p1,2(1),p1,2(2),...,V2,p2,3(1),p2,3(2),...,VN]
其中每个 Vi 代表一个与节点 vi 的节点类型 yi∈Y 相对应的专业化空中交通模式。这些模式包括特定的程序,如起飞序列、盘旋点和降落程序,这些都是根据每个节点的操作环境量身定制的。
(v) 无人机执行与监控:无人机从控制平台接收轨迹坐标和相关的控制指令。机载飞行控制系统自主导航飞机至序列航路点,同时维持预设的飞行参数。同时,无人机的集成传感器套件将实时遥测数据,包括精确的地理位置坐标、燃油水平、发动机转速、油温等关键操作参数,传输到地面控制平台。远程操作员持续监控所有系统参数,并保持监督控制权,以便在出现操作异常或安全考虑需要手动干预时实施纠正措施。
接下来,我们将介绍每个关键技术组件的算法和功能。
B. 作为解析器的 LLM
作为解析器的 LLM 是 NELV 系统最基础的组件,因为它定义了无人机飞行图 G,其准确性直接影响所有后续流程的结果。尽管我们设想未来的大语言模型不仅能定义图 G,还能确定路线 ξ、规划路径 π 并生成可执行轨迹 ρ,但我们发现,由于缺乏在无人机规划数据集上训练的专业化大语言模型,目前的通用大语言模型(如 GPT-4o )尚不具备足够的能力。因此,我们目前仅将大语言模型用作指令解析器,从自然语言指令中提取基本信息,包括出发点、目的地坐标和任务规格 。
在一个典型的操作场景中,人类飞行员可能会指示:“我想检查普渡大学附近5公里内的所有森林。” 作为解析器的 LLM 会系统地提取“普渡大学”作为参考点,“森林”作为监视目标,以及“5000”作为操作半径。当考虑到人类语言行为的内在可变性,包括潜在的拼写错误、语言歧义和信息不完整时,这个解析过程变得具有挑战性。人类飞行员必须通过迭代对话来补充或修正之前的指令,特别是在任务参数因操作因素需要修改时,例如出发点和到达点的变更或空中交通管制许可施加的时间限制。继续上述场景,如果飞行员最初遗漏了执行任务所需的无人机数量,他们可以随后通过说明“我有5架无人机执行任务”来提供澄清。这种迭代式的优化体现了任务规划的动态性,即初始指令可能不完整或需要根据不断变化的操作需求进行调整。这些修改可能发生在 NELV 系统流水线的任何阶段,包括在初始指令输入期间的即时修正、在路线规划后选择最优成本或时间效率方案时的调整,或在路径规划后因恶劣气象条件而必须进行的修改。因此,作为解析器的 LLM 的一个关键功能是通过对话界面处理人类飞行员的交互,以动态修改飞行计划,同时保持任务的连贯性 。
算法1:NELV 系统
/* 作为解析器的 LLM */
输入:飞行员指令
输出:图 G 和约束 C_max
执行:算法 2
接口:聊天框 (如图 2 左侧)
/* 路线规划器 */
输入:图 G 和约束 C_max (见公式 (1))
输出:路线 ξ
执行:算法 3
接口:聊天框 (如图 2 左侧)
/* 路径规划器 */
输入:路线 ξ (见公式 (1), (2))
输出:路径 π
执行:算法 4
接口:聊天框 (如图 2 顶部)
/* 控制平台 */
输入:路径 π (见公式 (2), (3))
输出:轨迹 ρ
执行:算法 5
接口:控制平台 (如图 2 顶部)
/* 无人机监控器 */
输入:轨迹 ρ (见公式 (3))
执行:无人机
接口:无人机监控器 (如图 2 右侧)算法2:作为解析器的 LLM 与图构建
输入:来自人类飞行员的初始指令 (I_0) 和后续指令 (t>0 时的 I_t)
输入:来自地图服务的节点属性 (X)
输出:图 (G) 和约束 (C_max)
1. 初始化节点集 V、类型集 Y 和约束集 C_max
2. 初始化对话 I <- I_0
3. 初始化时间索引 t <- 0
4. while 指令 I_t 存在 do
5. 将指令连接到历史记录 I <- I ⊕ I_t
6. LLM 使用对话进行推理 R_t <- LLM(I)
7. 从响应中提取信息:Y, C_max <- R_t
8. 根据节点类型从地图服务中搜索以获取节点 V 及其属性 X
9. 将响应连接到历史记录 I <- I ⊕ R_t
10. t <- t + 1
11. 初始化边集 E
12. 获取节点数 N <- |V|
13. for i = 1,..., N do
14. for j = 1,..., N do
15. if i!= j then
16. 计算节点 v_i 和 v_j 之间的边权重 w_i,j
17. 添加边 E <- E ∪ {(v_i, v_j, w_i,j)}
18. 构建图 G <- (V, E, X, Y)C. 路线规划
在作为解析器的 LLM 构建了图 G 之后,下一步是在 G 中找到一条从起点 v1 到终点 vN 且满足任务要求的路线。这些关键点在图 G 中表示为节点 v∈V。路线规划的基本目标是基于多个目标确定一个节点序列作为路线 ξ=[v1,v2,...,vN],例如根据燃油成本和消耗情况确定最佳加油地点,同时满足时间限制等各种约束。
在数学上,这个优化问题可以表述为:
ξ∗=argξ∈ΩminOroute(ξ)
\mathcal{O}{route}(\xi) = \sum{i=1}^{N-1} (\alpha \cdot \mathcal{L}(v_i, v_{i+1}) - (1-\alpha) \cdot \mathcal{R}(v_{i+1})) $$$$ \text{s.t. } C(\xi) \le C^{max}
M(ξ)=1
其中 ξ∗ 代表最优路线,Ω 表示从起点到终点的可行路线空间,Oroute(ξ) 描述了控制路线优化过程的目标函数。L(vi,vi+1) 表示连续节点间的成本函数,包含了空中交通密度、盛行风况、燃油消耗等因素。R(vi+1) 表示访问节点 vi+1 相关的奖励或效用。参数 α 平衡了最小化成本和最大化奖励之间的权衡。C(ξ) 是一个约束函数向量,其上限为 Cmax,涵盖了各种操作限制。M(ξ) 表示任务完成指示函数,如果所有任务要求都得到满足,则等于1,否则为0 。
这些函数由无人机规格、任务参数和操作环境决定,并根据具体要求逐案配置。例如,在执行需要中途加油的远程多跳中转任务时,成本函数 L(vi,vi+1) 包含了不同机场的燃油价格差异和与飞行相关的消耗指标,而当燃油质量不构成操作相关因素时,奖励函数 R(vi+1) 的值可能微不足道。约束函数 C(ξ) 代表当前的燃油容量水平和航程限制,而任务完成标准 M(ξ) 则表示成功的加油操作和任务目标的实现。关于每个用例的各函数实现的详细描述见章节 4。
算法3:路线规划器
输入:来自作为解析器的 LLM 的图 (G) 和约束 (C_max)
输出:最优路线 (ξ*)
1. 初始化候选路线集 Ω
2. for each set y ⊆ Y do
3. for permutation y_vec of y do
4. if y_vec 满足约束 C_max then
5. 构建一个仅包含 y_vec 中类型节点的子图 G_y_vec
6. 搜索子图 G_y_vec 以找到局部最优路线 ξ (见公式 (4))
7. 将 ξ 添加到候选集:Ω <- Ω ∪ {ξ}
8. if Ω!= ∅ then
9. 根据人类飞行员或目标函数 O_route(ξ) 从 Ω 中选择最优路线 ξ* (见公式 (4))
10. 提前停止
11. else
12. 如果没有可行解,则输出直达路线 ξ* <- [v_1, v_N]D. 路径规划
在路线规划器确定了最优路线 ξ∗ 之后,路径规划器会生成一个更详细、更具体的路径 π,该路径考虑了一整套服务数据 S,包括天气预报、地面风险、空域限制和各种监管参数,以确保在最小化操作成本的同时遵守 FAA 的规定。给定路线 ξ∗ 中的节点,路径规划问题涉及寻找中间航路点 pi,i+1(j)∈R3(代表经度、纬度和高度),以构建一条优化复合目标函数的路径。对于连接节点 vi 和 vi+1 的每个航段,路径规划问题可表述为:
πi,i+1∗=argπ∈Πi,i+1minOpath(π)
Opath(π)=βc⋅Φ(π)+βf⋅F(π)
其中 πi,i+1∗ 表示节点 vi 和 vi+1 之间的最优路径段,Πi,i+1 是这些节点间所有可行路径的集合,而 Opath(π) 是根据服务数据 S 评估的路径规划目标函数。βc 和 βf 分别是 Φ(π) 和 F(π) 的系数。Φ(π) 量化了路径上的约束违规情况,F(π) 表示在该路径段上评估的成本函数。βc 远大于 βf 以确保约束得到满足。与路线规划(其解空间有限,节点数量有限)不同,路径规划存在无限多的潜在解和无数可能的航路点。因此,约束被直接纳入目标函数,而不是像公式 (4) 中那样分开处理 。
同样,路径规划也高度依赖于具体情况,取决于无人机的类型、尺寸、重量和任务场景。因此,成本函数 F(π) 和约束函数 Φ(π) 都根据具体要求而变化。举例来说,成本函数 F(π) 通常包含与无人机操作相关的多个因素,包括路径长度、任务持续时间、与天气相关的危险以及与地面相关的风险。天气风险通常源自简化预报结冰潜势(SFIP)、对流有效位能(CAPE)和整体理查森数(BRN)等指标,这些指标分别描述了结冰条件、湍流和雷暴的可能性。地面风险是根据飞越区域的人口密度和通过这些区域的轨迹长度来计算的。此外,还可以利用风力信息来优化任务时间,以减少燃油消耗。
完整的 оптимальная 路径 π∗ 是通过连接路线 ξ∗ 中连续节点之间的最优路径段 πi,i+1∗ 构成的,即 π∗=v1∗⊕π1,2∗⊕v2∗⊕π2,3∗⊕⋯⊕πN−1,N∗⊕vN∗,其中 ⊕ 表示路径连接。为了在包含离散和连续变量的大搜索空间内有效且高效地确定 π∗,我们采用了粒子群优化(PSO)算法 ,这是一种非常适合此类问题的元启发式算法。
在路径规划应用中,PSO 首先随机生成一组候选路径,共同构成初始种群 P0。该种群根据以下更新方程进行 T 代迭代演化:
vt+1=wvt+c1rp⋅(pt−Pt)+c2rg⋅(gt−Pt)
Pt+1=Pt+vt+1
其中 t=1,2,...,T 表示迭代代数。参数 w,c1,c2 分别代表惯性权重、个体影响和社会影响,是用于调整 PSO 的超参数。pt 代表每个粒子历史上达到的个体最佳位置,gt 表示在第 t 代所有粒子中找到的全局最佳解。向量 rp 和 rg 包含在区间 内均匀分布的随机数。这种基于 PSO 的路径规划器的详细算法实现在算法 4 中给出 。
算法4:路径规划器
输入:来自路线规划器的路线 (ξ)
输入:来自服务的服务数据 (S)
输出:最优路径 (π*)
1. 初始化种群 P_0,个体最佳位置 p_0,全局最佳 g_0 和速度 v_0
2. for t = 1,..., T-1 do
3. 生成随机向量 r_p 和 r_g
4. 更新速度和位置 (见公式 (6))
5. 评估目标函数 O_path(P_{t+1}) (见公式 (5))
6. for i = 2,..., N do
7. if O_path(P_{t+1}[i]) < O_path(p_t[i]) then
8. 更新个体最佳:p_{t+1}[i] <- P_{t+1}[i]
9. else
10. 保持个体最佳:p_{t+1}[i] <- p_t[i]
11. 更新全局最佳:g_{t+1} <- arg min_{p ∈ p_{t+1}} O_path(p)
12. 输出最优路径 π* <- g_TE. 控制平台
为了将最优路径 π∗ 转化为适合无人机部署的真实任务剖面,起始航路点 v1 和终端航路点 vN 必须分别替换为标准化的起飞和降落环路模式。基于 v1 和 vN 的坐标,通过地理空间匹配算法识别出相应的机场。随后,从 AirNav 数据库 中检索所有跑道端点的坐标和朝向,并用于计算跑道中心点 (φs,λs),该中心点作为环路生成的参考原点。给定预定义的高度规格和航路点间隔参数,使用算法 5 系统地生成一个局部环路模式。
图3:标准的起飞环路航线模式,配置为肾形轨迹,使无人机能够在收到空中交通管制(ATC)许可前,在交通模式内保持受控盘旋。紫色航路点(0)表示初始起飞位置,白色航路点代表沿飞行路径的中间导航点。蓝色连接线表示连续航路点之间规划的轨迹段,箭头指示规定的飞行方向和顺序。航路点5被策略性地放置,以防止飞机飞越活动跑道,确保符合航空安全协议和机场操作程序。
环路航路点生成的测地计算始于角距离归一化,其中 dk 是连续航路点 k 和 k+1 之间的大圆距离(米):
δk=6.371×106dk
其中 δk 是由地球半径(6.371×106 米)归一化的角距离。利用这个归一化的角距离 δk 和从航路点 k−1 到航路点 k 的方位角 θk,通过球面三角学计算每个航路点的经纬度坐标:
φk=arcsin(sinφk−1cosδk+cosφk−1sinδkcosθk)
λk=λk−1+atan2(sinθksinδkcosφk−1,cosδk−sinφk−1sinφk)
其中 φk 表示第 k 个航路点的纬度,λk 表示经度。图 3 展示了一个使用 制作的示例性环路配置,演示了这些测地变换。最后,系统地附加特定任务的操作指令,例如在指定航路点周围进行顺时针盘旋以完成货物投放或装载操作,从而构建最终的可执行轨迹 ρ,该轨迹随后被上传到控制平台以进行自主任务执行 。
算法5:起降模式生成器
输入:经纬度坐标 (φ_s, λ_s),起始高度 (h_s),跑道朝向 (θ_0),航路点间隔 (d),高度剖面 (h),交通模式 (TP)
输出:局部环路 (V)
1. 交通模式符号 s <- {-1, 如果 TP=左转; +1, 如果 TP=右转}
2. 固定角度偏移 θ_RA <- 8-12°
3. 朝向增量 Δθ <-
4. V <- {(φ_s, λ_s, h_0)}
5. for k = 1,..., 9 do
6. θ_k <- θ_{k-1} + Δθ_k
7. (φ_k, λ_k) <- P(φ_{k-1}, λ_{k-1}; d_k, θ_k) (见公式 (8))
8. V <- V ∪ {(φ_k, λ_k, h_k)}
9. return V4. 实现与案例研究
A. 图形用户界面与设置
我们使用 PyQT5 开发了一个图形用户界面(GUI),作为聊天框,使人类飞行员能够与大语言模型进行交互。该界面集成了路线规划和路径规划功能,如图 4a、5a 和 6a 所示。GUI 由三个主要部分组成:工具栏、消息面板和输入框。工具栏允许飞行员在不同的大语言模型模式之间切换。从上到下,可用选项包括:聊天(对话气泡表情)、短程(直升机表情)、中程(小飞机表情)、远程(飞机表情)、规划路线(铅笔表情)、规划路径(世界地图表情)、上传路径(游戏手柄表情)、历史记录-短程(剪贴板表情)、历史记录-中程(剪贴板表情)、历史记录-远程(剪贴板表情)和重置(逆时针箭头按钮表情)。飞行员使用聊天进行通用查询,而三种任务模式则用于规划不同任务。在交互过程中的任何时刻,飞行员都可以激活规划路线、规划路径或上传路径来执行相应操作。此外,三个历史记录功能存储了过去的对话并提供示例任务。最后,飞行员可以重置对话以开始新任务 。
当飞行员在输入框中输入文本并点击发送按钮(向上箭头)时,文本会与预定义的系统提示结合,并提交给大语言模型进行推理。在我们的实现中,我们使用 Phi-4-mini-Instruct 作为作为解析器的 LLM。系统会存储对话上下文,以便飞行员可以迭代地优化飞行计划。消息面板显示所有响应,包括大语言模型的输出以及生成的路线和路径。收到飞行员指令后,大语言模型会解读输入并生成一个初步的基于文本的飞行计划。一旦飞行员接受该计划,点击规划路线会触发系统生成一条路线,并显示在消息面板中。如果路线被接受,飞行员继续点击规划路径,系统会生成相应的路径。最后,一旦路径被批准,飞行员点击上传路径将其发送到控制平台,之后可以在控制环境中执行后续操作 。
B. 控制平台与真实无人机构型
我们使用 Windracers ULTRA 无人机 及其集成的控制平台,包括 Windracers Mission Control 和 Windracers Autopilot ,来执行飞行控制和操作任务。Mission Control 是一个复杂的多无人机分布式控制架构,提供关于飞机操作状态的实时遥测反馈。该平台使飞行员能够在飞行操作期间动态修改或重新配置任务参数;例如,飞行员可以手动删除航路点,促使飞机自主导航至后续目的地,或者通过交互式地图操作或直接编辑数值参数来调整航路点坐标(经度、纬度和高度)。Mission Control 还支持高级操作能力,包括盘旋点配置,使飞机能够在指定的监视区域上空保持盘旋模式。此外,该平台便于同时可视化和控制多个无人机资产,从而实现协调监控和协同任务执行。虽然 Mission Control 和 Autopilot 平台与 ULTRA 无人机提供了卓越的集成和无缝控制,但 NELV 也可以使用开源的自动驾驶软件平台(如 PX4 和 ArduPilot )来实现 。
ULTRA 是一款固定翼无人机,最大起飞重量为510公斤,有效载荷能力为150公斤。最近更新的 ULTRA MK2 通过在超过1,000公里的航程内运输多达80升的货物,扩展了这一能力。该飞机由两台 HIRTH F23 发动机提供动力,每台额定功率为45马力,使用标准的无铅汽油/机油混合物作为燃料,巡航速度约为40米/秒,可在高达4,000米的高度运行。根据配置,它可以持续7-9小时的自主飞行,并与包括铺装、草地、碎石和泥土在内的多种跑道条件兼容。除了其物理规格外,ULTRA 平台还支持一系列任务剖面:货物运输、用于关键物资的降落伞投放,以及野火监测等航空勘测和探测应用 。
C. 用例设置
接下来,我们展示三个复杂程度各异的代表性用例,分别对应短程、中程和远程任务。此外,我们考察了三个具体的操作挑战:多无人机巡逻、多兴趣点配送和多跳中转,这些挑战在三个不同的数据集和来源上进行评估,包括 OpenStreetMap 、Yelp Open Dataset 以及来自 AirNav 的美国机场燃油价格和规格。我们旨在通过这些多样化的数据源展示 NELV 系统的可扩展性,这些数据源通过不同的方法和格式提供地理空间信息。例如,OpenStreetMap 是一个全面的地图搜索服务,用户可以查询全球任何位置的信息,而 Yelp Open Dataset 是一个预处理的存储库,包含广泛的兴趣点地理坐标和用户评论数据。此外,用户还可以在专有数据集或商业地图服务(如谷歌地图)上部署 NELV 系统,这展示了我们系统在不同数据基础设施间的适应性 。
在我们的实验实现中,我们为路径规划操作集成了空域信息、人口密度数据和天气预报。空域信息从 OpenAIP 获取,这是一个包含管制空域边界、飞行限制区和空中交通管制扇区的全球航空数据库。系统通过检查飞行路径与限制性几何区域的交集来评估空域违规,并对未经授权的空域穿透施加约束惩罚。人口密度 的考虑通过地面风险评估实现,系统根据城市边界和市区几何形状评估飞行路径,以最小化飞越人口密集区域的风险,尽管对于在高空飞行的远程航班,此约束被禁用。天气预报数据来源于存储在 Herbie 数据集 中的高分辨率快速刷新(HRRR)模型,提供不同气压高度(远程飞行为250毫巴,短程操作为950毫巴)的气象预测。天气分析包含了大气参数,包括云混合比、温度、相对湿度、垂直速度、CAPE、风切变分量和水平风矢量。这些参数被处理以生成综合风险指数,包括 SFIP 和 BRN,这些指数沿飞行路径段进行积分并按距离加权,以评估路径优化的累积天气危害 。
D. 用例1:短程多无人机巡逻
实现细节:我们使用 OpenStreetMap 作为地理空间信息的主要来源。OpenStreetMap 是一个可免费访问的开源地图服务,允许飞行员通过关键词搜索查询地理元素,包括设施分类(如教育、医疗、交通)、建筑类别(如体育、汽车、仓储)、商业场所(如食品、美容、服装)及其他各种地理特征。该平台支持多种查询方法来识别目标区域内的对象,包括边界框查询、行政边界搜索、基于距离的范围查询和多边形区域选择。在我们的实现中,我们将地图中心设在普渡大学机场,并检查5公里半径内的森林区域,以执行一项专注于野火探测的多无人机巡逻任务 。
图 4a 展示了飞行员与大语言模型之间的交互对话,其中指定了初始任务参数,包括出发点、探测目标、监视范围和无人机机队规模。在最初的对话交流中,大语言模型成功识别了任务参数;然而,由于没有明确指定无人机数量,系统默认为单无人机构型。通过利用对话式大语言模型,NELV 使飞行员能够通过自然语言交互迭代地优化任务规格。例如,在飞行员指定了五架无人机后,大语言模型会相应地动态更新任务计划。在飞行员确认飞行计划后,路线规划算法被启动。对于多无人机路线优化,我们使用 OR-Tools ,生成的路线如图 4b 所示。普渡大学附近的森林地带被划分为五个独立的区域,每个区域都分配了一条指定的无人机路线。相应的飞行路径如图 4c 所示;值得注意的是,在这个短程操作场景中,由于操作范围和高度限制有限,路径与路线重合,这使得天气、空域和地形相关的风险可以忽略不计。图 4d 展示了完整的可执行轨迹,包括起降模式以及执行任务的飞行路径。我们展示了两种利用不同跑道方向的独特操作模式:起飞模式沿东北-西南方向对齐,而降落模式则朝向近乎东西向的配置。这些差异化的跑道进近方式可以防止在同一机场设施内多架无人机同时执行任务时发生跑道侵入 。
图4:用例1:短程多无人机巡逻(章节 IV-D)。
(a) 作为解析器的 LLM
(b) 路线规划
(c) 路径规划
(d) 可执行轨迹
E. 用例2:中程多兴趣点配送
实现细节:我们使用 Yelp Open Dataset 作为任务规划中兴趣点(POI)信息的主要来源,该数据集包含地理坐标、商户评级、评论数量和营业时间。Yelp Open Dataset 是一个有限的地图数据,因为其存储库仅包含11个大都市区的 POI 信息,覆盖范围不全面,且不提供实时更新。相比之下,虽然 OpenStreetMap 服务提供 POI 的地理坐标,但它们不包含用户生成的指标,如评级和评论数量。另一种商业地图解决方案是谷歌地图,它提供更全面的信息和实时更新,但每次查询都会产生相关的服务费用。在我们的实现中,我们考虑一个用例,其中一架无人机从印第安纳波利斯机场出发,飞往普渡大学机场,中途在一家药店和一家超市停靠以采购物资。任务目标是最大化这两个地点的质量(即评级和评论数量),同时最小化总路线距离。在每个 POI,系统会自动建立一个盘旋点,无人机在此处以约300米离地高度(AGL)执行圆形飞行模式以模拟货物操作。在实际部署场景中,此配置可根据操作需求动态调整,例如执行精确着陆以进行地面货物拾取、通过自动释放机制执行空中货物投放,或为侦察任务维持扩展的监视模式 。
在图 5a 中,飞行员指定了一条从印第安纳波利斯到普渡大学的飞行轨迹,中途停靠一家药店。NELV 系统准确识别了起点和终点,同时正确地将药店分类为 POI。在此用例中,飞行员通过请求访问一家超市,动态地增加了一个额外的 POI。在大语言模型确认并经飞行员确认任务参数后,飞行员利用界面工具执行算法 3 进行路线优化,结果呈现在图 5b 中。随后,图 5c 展示了从计算出的路线转换而来的路径,该路径综合考虑了气象灾害、地形风险和空域限制。在图 5c 中,红色边界描绘了市、镇的界限,而蓝色圆圈代表需要空中交通管制许可的管制空域。此外,一个叠加的热图可视化了操作区域内与天气相关的风险分布。路径规划算法允许调整权重以优先考虑特定的成本函数;在这个特定用例中,我们将系统配置为优先优化路径距离,而非天气规避和空域限制等其他因素 。
图5:用例2:中程多兴趣点配送(章节 IV-E)。
(a) 作为解析器的 LLM
(b) 路线规划
(c) 路径规划
(d) 可执行轨迹
F. 用例3:远程多跳中转
实现细节:我们使用从 AirNav 获取的机场数据,包括全美所有机场的位置、标识符和燃油价格。不同机场位置的燃油价格差异巨大。根据2025年3月从 AirNav 获取的数据,美国大陆共有2,577个机场,其中2,076个提供燃油价格信息。航空燃油价格在不同地点差异显著,从克林顿维尔市立机场的最低0.74美元/升到科迪亚克机场的最高2.77美元/升不等。因此,当无人机执行远程多跳中转任务时,必须仔细权衡不同机场的燃油成本与飞行距离之间的取舍 。
在我们的配置中,ULTRA 无人机的油箱容量为80升,燃油消耗率为10.95公里/升,从而得出最大飞行航程约为876公里。请注意,燃油消耗随质量和天气条件而变化。由于机场交通管制限制和不同的操作复杂性,估算各个机场在起降过程中的实际燃油消耗面临巨大挑战。因此,我们为每次机场操作(起飞和降落合计)设定了约10升的标准化燃油开销,相当于约一小时的巡航飞行消耗。这建立了一个关键的路径规划约束,即机场之间的航段不能超过876公里,从而能够构建一个用于路线规划优化的图网络。考虑到巡航高度约为30,000英尺,所有15,000至40,000英尺之间的限制空域都被纳入考虑。包括雷暴活动、湍流区和结冰潜势在内的气象灾害也被整合到路径规划算法中 。
在图 6a 中,飞行员指定了一次从纽约到洛杉矶的跨大陆飞行。系统准确识别了起点和终点。鉴于远程飞行需要多次加油停靠,NELV 集成了一个飞行选项功能,使飞行员能够在不同优化策略之间进行选择。默认情况下,系统采用平衡配置,生成在总路线距离和累积成本之间进行优化的路线。图 6b 展示了所有可行的路线备选方案。飞行员保留了动态修改飞行选项的能力。在此实例中,飞行员选择了最便宜的选项,促使系统重新配置飞行策略并选择相应的成本优化路线。从该路线选择中得出的路径如图 6c 所示。值得注意的是,鉴于远程操作的巡航高度约为30,000英尺,地形相关的风险变得可以忽略不计,路径规划算法仅考虑空域限制 。
图6:用例3:远程多跳中转(章节 IV-F)。
(a) 作为解析器的 LLM
(b) 路线规划
(c) 路径规划
(d) 可执行轨迹
5. 发展路线图与未来方向
我们当前的 NELV 系统架构包含五个独立的组件,以适应通用大语言模型在无人机应用中不断演进的能力。尽管当今的大语言模型展现出巨大潜力,但它们需要与领域特定知识进行专门集成,这些知识包括空域法规、航空地图数据、无人机控制系统、操作协议和集群智能等。NELV 的模块化设计预见了随着无人机专用语言模型的成熟,大语言模型能力的逐步增强,从而能够逐渐整合系统组件。此外,全面的无人机数据集和专门的训练方法的开发将促进创建领域优化的 LLM,使其能够处理日益复杂的操作场景。
如图 7 所示,我们设想了一个系统性的演进过程,朝着能够无缝集成多个无人机操作功能的统一大语言模型架构发展。这个路线图勾勒了渐进的集成路径,明确了在每个自动化级别上大语言模型所需的信息、决策能力和技术前提,最终导向完全自主的无人机任务规划和执行系统。这一演进过程的核心挑战在于如何有效地将海量的、专业的航空领域知识融入大语言模型中,因为从一个级别跃升到下一个级别的瓶颈,主要在于知识的深度和广度。
图7:NELV 系统的演进路线图。绿色框-任务执行:NELV 系统运行所需的组件,展示了渐进式集成,其中更高的自动化级别降低了组件的复杂性,同时实现了更强的系统集成,从1级(作为解析器的 LLM)演进到5级(作为自动驾驶仪的 LLM)。蓝色框-前提条件:随着每个自动化级别的提升而扩展的基础设施和知识要求,以支持日益复杂的 LLM 推理能力。灰色框-无人机系统架构:为所有自动化级别提供基础支持的基本无人机传感、通信和操作接口组件。
A. 1级:作为解析器的 LLM
- 前提条件:提示工程。
- 任务执行:路线规划器(算法 3)、路径规划器(算法 4)、控制平台(算法 5)和安全飞行员。
- LLM 的输出:起点、终点和兴趣点。
- 职责:当前的 NELV 系统处于1级,它使用 LLM 作为解析器从人类飞行员的指令中提取信息。这是一个相对直接的应用,因为 LLM 主要执行语言理解和推理,从自然语言输入中提取关键信息,如起点和终点的名称。通用大语言模型足以胜任此功能,因为它们不需要专门的无人机知识,而只专注于特定的令牌提取。在更复杂的操作场景中,LLM 必须提取复杂的约束和要求,例如当人类飞行员请求“请确保在机场关闭前到达”时,其中包含了时间约束“机场关闭”。在这种情况下,LLM 无需理解“机场关闭”的语义含义,只需将其作为预定义的标识符进行处理,以供后续在路线规划中进行评估(如算法 2 第4行所实现)。因此,虽然我们的系统能有效执行基本信息提取,但可提取的信息仍限于系统提示中预定义的关键词,如起点、终点、时间约束等,而无法识别未指定的关键词类型。
- 挑战:尽管 LLM 在执行这种相对简单的任务方面表现出色,但仅将其用作信息提取器存在显著局限性。由于我们不要求 LLM 参与认知过程或决策,它无法处理预定关键词之外的操作或应对复杂场景。对于作为解析器的 LLM 框架,我们必须在系统提示中预先定义要提取的特定信息(例如,起点和终点的名称)。因此,LLM 无法理解非预定义的信息,如“这是一次紧急药品运送”,因此不会在路线规划过程中纳入此要求。另一个局限是,作为解析器的 LLM 不会整合上下文信息以进行更复杂的推理。例如,在某些机场因暴雪等恶劣天气条件而受影响的中转场景中,航空最佳实践要求避开这些地点。如果作为解析器的 LLM 仅执行信息提取,它无法在路线规划阶段排除这些受影响的机场。同时,如果路线规划器不考虑气象因素,生成的路线将不是最优的。更关键的是,在这些场景中,人类飞行员无法使用自然语言来修改作为解析器的 LLM 提取的信息或调整规划的路线。相反,人类飞行员必须手动排除这些机场,从而增加了他们的操作负担 。
B. 2级:作为路线规划器的 LLM
- 前提条件:提示工程和专家反馈。
- 任务执行:路径规划器(算法 4)、控制平台(算法 5)和安全飞行员。
- LLM 的输出:路线(即节点序列)。
- 职责:NELV 系统的2级实现了作为路线规划器的 LLM,用于路线规划,这要求 LLM 对操作环境有全面的了解,特别是关于节点的信息,包括其地理位置、运营状态以及其他任务关键参数,如燃油价格。除了知识获取,作为路线规划器的 LLM 还必须对人类飞行员的指令进行复杂的分析,展示上下文推理能力,理解人类飞行员的偏好,并制定最优的规划方案。例如,当接到指令“我想驾驶无人机到附近的机场加油,考虑最经济的飞行路径”时,作为路线规划器的 LLM 必须系统地评估附近的机场、它们的地理空间位置、燃油支出指标、飞行消耗算法、与风矢量相关的空气动力学效率考量以及其他相关参数。相反,当面对指令“尽快行动,我需要马上使用它”时,作为路线规划器的 LLM 必须识别出时间上最优的路线。作为路线规划器的 LLM 不仅要解读人类指令背后隐含的目标,还要执行计算分析以确定满足这些目标的可行路线。
- 挑战:为满足这些操作要求,作为路线规划器的 LLM 需要增强的知识资源和计算能力以进行有效的决策过程。首先,系统需要访问包含有关任务相关节点详细信息的综合性地理空间数据库,这些节点的数量根据具体的任务参数和地理环境而有显著差异。例如,根据 Yelp Open Dataset ,印第安纳波利斯有54家药店和234家超市,这说明了不同城市环境和服务类别中 POI 密度的巨大差异。此外,作为路线规划器的 LLM 必须利用这些信息执行计算操作,如计算飞行时长指标和根据相关标准对机场进行排序。此外,作为路线规划器的 LLM 必须展示对飞行员偏好的复杂理解,包括显性和隐性两个维度。显性偏好是飞行员指令中直接阐明的,包括经济效率考量、时间紧迫性因素或空间邻近性要求。隐性偏好源于人类的经验判断,这可能通过基于人类反馈的强化学习(RLHF)- 来解决。作为路线规划器的 LLM 可能通过专门的训练协议或微调方法,或可能通过与辅助 API 的集成来实现这些功能。无论采用何种实现方法,这个操作级别都要求 LLM 处理大幅扩展的信息量,并利用这些信息来执行更复杂和自主的决策过程 。
C. 3级:作为路径规划器的 LLM
- 前提条件:提示工程、专家反馈、空域信息。
- 任务执行:控制平台(算法 5)和安全飞行员。
- LLM 的输出:路径(即航路点序列)。
- 职责:NELV 系统的3级实现了作为路径规划器的 LLM,用于更详细的航路点确定,这需要比2级作为路线规划器的 LLM 多得多的信息,因为它必须提供超出路线中指定节点的航路点。如果说作为路线规划器的 LLM 可以被视为一种常识性的节点选择过程,那么在路径内确定航路点则需要更广泛的航空领域知识,包括考虑人口密集区、不同的空域分类、空中交通密度以及其他因素,以促进合理的路径规划。与作为路线规划器的 LLM 类似,作为路径规划器的 LLM 必须理解人类飞行员的偏好,不仅是关于节点选择,还包括路径特征。这些偏好可能包括特定的飞行时间、飞行路径和其他操作参数。与路线规划的另一个区别是,无人机任务路径中的航路点是三维的,包括经度、纬度和高度。作为路径规划器的 LLM 不仅要确定航路点的地理位置,还要考虑飞行高度,遵守 FAA 的规定,同时满足人类飞行员的偏好。
- 挑战:即使 LLM 的能力可以在2级实现合理的路线规划,但在向3级路径规划的过渡中仍存在巨大的研究差距。路径规划的独特挑战在于理解和遵守 FAA 的规定,并规划合适的飞行高度。因此,LLM 需要对 FAA 的规定有深刻的理解,特别是考虑到多种因素会触发不同的规则,包括无人机类型、尺寸、重量、飞行时间(如夜间操作)、飞行速度以及众多其他监管条款。通常,当前的 NELV 系统需要人类飞行员手动指定无人机类型(即预先配置某些无人机类型和任务),以确保符合 FAA 的规定。当直接使用作为路径规划器的 LLM 时,它必须根据人类飞行员的语言输入或系统背景信息考虑不同的 FAA 规定。另一个挑战是无人机飞行高度的设计。尽管起飞、降落和任务执行的交通模式是在控制平台内设计的,但在航路飞行期间也必须考虑路径高度。飞行高度规划至关重要,因为它影响燃油效率、空域管理、天气考量、整体飞行安全以及其他因素 。
D. 4级:作为执行器的 LLM
- 前提条件:提示工程、专家反馈、空域信息和无人机模拟器。
- 任务执行:安全飞行员。
- LLM 的输出:轨迹(即包括起飞、降落和特定任务飞行模式的航路点序列)。
- 职责:NELV 系统的4级进一步包含了云平台的功能,直接使用作为执行器的 LLM 来规划可执行的轨迹并远程控制无人机的飞行操作。如前所述,控制平台的功能超越了基本的路径规划,还考虑了飞行模式,这对于需要特定模式进行起飞、降落和任务执行的固定翼无人机尤为关键。通常,固定翼无人机在起降程序中遵循标准的交通模式(即左转模式)。因此,作为执行器的 LLM 必须根据机场的具体规定设计不同的交通模式。除了起降考量,作为执行器的 LLM 还需要为不同任务类型实施不同的设计。例如,在一个观察野生牦牛种群的任务中,多旋翼无人机可以悬停不动,允许作为执行器的 LLM 简单地设计一个三维坐标位置。相比之下,无法悬停的固定翼无人机需要采用圆形交通模式,以便在同一位置持续观察牦牛种群。作为执行器的 LLM 需要全面理解不同无人机的交通特性,才能有效地设计起飞、降落和特定任务的交通模式。
- 挑战:主要挑战在于需要具备关于无人机的广泛知识,特别是关于不同类型无人机的各种交通模式。与路径规划类似,这与无人机的类型和尺寸密切相关。相比之下,作为执行器的 LLM 的挑战更侧重于无人机固有的局限性;例如,它不能命令固定翼无人机垂直起降,因为这会导致升力不足并随后坠毁。此外,对于不同尺寸和重量的无人机,标准的起降模式差异很大。此外,与任务相关的交通模式是另一个关键挑战,不同任务类型之间存在巨大差异。以固定翼无人机为例,不同的特定任务交通模式可能包括圆形飞行(如搜救)、空投操作(如药品运送)、网格覆盖(如农业喷洒)等。在实践中,与任务相关的交通模式比其起降程序更具难度,因为机场信息是有限且预先确定的,因此我们总能预先收集全球机场的全面数据用于作为执行器的 LLM 的训练。然而,大多数任务仍然是不可预测和不可控的,例如自然灾害后的搜救行动。作为执行器的 LLM 需要对潜在的任务和场景有极其全面的理解,才能进行合理的规划 。
E. 5级:作为自动驾驶仪的 LLM
- 前提条件:提示工程、专家反馈、空域信息、无人机模拟器和 ATC 数据集。
- 任务执行:仅作为自动驾驶仪的 LLM。
- LLM 的输出:无人机动作和解释(以便在必要时允许人类飞行员干预)。
- 职责:NELV 系统的最终级别是作为自动驾驶仪的 LLM,代表了一种全面的集成,其中 LLM 在收到人类飞行员指令后自主控制无人机完成任务,无需额外的人工干预。重要的是,这并不意味着 LLM 直接操纵无人机的控制面。相反,它自主利用可用资源和集成的 API 进行操作,包括地图服务 API、空中交通 API、控制 API 和其他功能接口。这里的重点是基于当前态势评估的自主决策,可与合格的人类飞行员根据可用信息做出决策的能力相媲美。一个增强的功能是与人类飞行员保持通信能力。例如,当无人机操作条件变得复杂时,系统应向监督的人类飞行员报告并请求协助或控制权转移。此外,它必须促进信息共享或访问权限,并与其他作为自动驾驶仪的 LLM 交流计划的行动。例如,在灾难搜救行动中,执行协同搜索任务的多架无人机可以实时共享搜索区域信息,并协调后续的搜索区域分配,以优化搜索效率。
- 挑战:作为自动驾驶仪的 LLM 的根本挑战在于 LLM 模拟人类飞行员的决策行为,特别需要全面理解所有无人机系统、与监督人类飞行员的通信协议以及与其他作为自动驾驶仪的 LLM 的信息交换机制。除了基本的控制功能,当无人机遇到不可预测的突发事件时,一个更关键的挑战出现了,即需要可靠的响应协议。例如,当无人机遭遇鸟击事件时,作为自动驾驶仪的 LLM 必须首先稳定飞机,随后评估所有系统的运行状态,在必要时请求人类飞行员干预,并最终向其他无人机发出关于鸟类威胁的警报,以防止更多事件发生。LLM 需要对所有无人机系统有全面的了解,才能执行有效的系统诊断、操作评估并实施适当的应急协议,同时还需要先进的无人机专用逻辑推理能力。总之,关键挑战在于在各种操作场景中有效实现人类飞行员级别的决策能力 。
6. 结论
本文介绍了新一代无人机大语言模型(NELV)系统,该系统将自然语言任务映射到短、中、远程的飞行执行。NELV 实现了一个端到端的流水线,从语言理解、路线和路径规划,到控制集成和真实世界部署。通过三个代表性的案例研究(短程多无人机巡逻、中程多兴趣点配送和远程多跳中转),我们展示了其在操作环境中的可行性。该系统在遵守用户定义的约束、适用的空域法规和可执行的航路点的同时,减轻了飞行员的工作负荷 。
展望未来,我们为由大语言模型驱动的无人机自主性勾勒了一个五级路线图,从当前的作为解析器的 LLM 阶段,发展到设想中具备飞行员级别决策能力的作为自动驾驶仪的 LLM。这一发展轨迹强调了随着模型的成熟以及领域特定数据集、法规法典和通信协议的融入,推理、规划和控制能力的逐步整合。关键挑战依然存在,包括无人机专用数据集的稀缺、将法规和安全知识嵌入模型的困难,以及为安全关键评估建立稳健的基准和模拟器的需求 。
总之,NELV 既是一个实际的演示,也是一个前瞻性的 LLM 赋能航空系统框架,为构建更安全、更具适应性、更易于人类操作员使用的无人机奠定了基础 。
参考文献
D. Mahmud, H. Hajmohamed, S. Almentheri, S. Alqaydi, L. Aldhaheri, R. A. Khalil, and N. Saeed, "Integrating llms with its: Recent advances, potentials, challenges, and future directions," IEEE Transactions on Intelligent Transportation Systems, 2025.
L. Yuan, D.-J. Han, S. Wang, and C. G. Brinton, "Local-cloud inference offloading for llms in multi-modal, multi-task, multi-dialogue settings," arXiv preprint arXiv:2502.11007, 2025.
W. Fang, D.-J. Han, L. Yuan, and C. G. Brinton, "Collaborative device-cloud llm inference through reinforcement learning," arXiv preprint arXiv:2509.24050, 2025.
L. Yuan, D.-J. Han, C. G. Brinton, and S. Brunswicker, "Llmap: Llm-assisted multi-objective route planning with user preferences," arXiv preprint arXiv:2509.12273, 2025.
S. Javaid, H. Fahim, B. He, and N. Saeed, "Large language models for uavs: Current state and pathways to the future," IEEE Open Journal of Vehicular Technology, 2024.
Y. Tian, F. Lin, Y. Li, T. Zhang, Q. Zhang, X. Fu, J. Huang, X. Dai, Y. Wang, C. Tian et al., "Uavs meet llms: Overviews and perspectives toward agentic low-altitude mobility," arXiv preprint arXiv:2501.02341, 2025.
G. Liu, N. Van Huynh, H. Du, D. T. Hoang, D. Niyato, K. Zhu, J. Kang, Z. Xiong, A. Jamalipour, and D. I. Kim, "Generative ai for unmanned vehicle swarms: Challenges, applications and opportunities," arXiv preprint arXiv:2402.18062, 2024.
G. Sun, W. Xie, D. Niyato, H. Du, J. Kang, J. Wu, S. Sun, and P. Zhang, "Generative ai for advanced uav networking," IEEE Network, 2024.
Z. Kaleem, F. A. Orakzai, W. Ishaq, K. Latif, J. Zhao, and A. Jamalipour, "Emerging trends in uavs: From placement, semantic communications to generative ai for mission-critical networks," IEEE Transactions on Consumer Electronics, 2024.
F. Yao, Y. Yue, Y. Liu, X. Sun, and K. Fu, "Aeroverse: Uav-agent benchmark suite for simulating, pre-training, finetuning, and evaluating aerospace embodied world models," arXiv preprint arXiv:2408.15511, 2024.
G. Chen, X. Yu, N. Ling, and L. Zhong, "Typefly: Flying drones with large language model," arXiv preprint arXiv:2312.14950, 2023.
S. Liu, H. Zhang, Y. Qi, P. Wang, Y. Zhang, and Q. Wu, "Aerialvln: Vision-and-language navigation for uavs," in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 15384–15394.
R. Sinha, A. Elhafsi, C. Agia, M. Foutter, E. Schmerling, and M. Pavone, "Real-time anomaly detection and reactive planning with large language models," arXiv preprint arXiv:2407.08735, 2024.
J. Zhong, M. Li, Y. Chen, Z. Wei, F. Yang, and H. Shen, "A safer vision-based autonomous planning system for quadrotor uavs with dynamic obstacle trajectory prediction and its application with llms," in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2024, pp. 920–929.
J. Cui, G. Liu, H. Wang, Y. Yu, and J. Yang, "Tpml: Task planning for multi-uav system with large language models," in 2024 IEEE 18th International Conference on Control & Automation (ICCA). IEEE, 2024, pp. 886–891.
P. Pueyo, E. Montijano, A. C. Murillo, and M. Schwager, "Clipswarm: Generating drone shows from text prompts with vision-language models," in 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024, pp. 11917–11923.
H. Shakhatreh, A. H. Sawalmeh, A. Al-Fuqaha, Z. Dou, E. Almaita, I. Khalil, N. S. Othman, A. Khreishah, and M. Guizani, "Unmanned aerial vehicles (uavs): A survey on civil applications and key research challenges," Ieee Access, vol. 7, pp. 48572–48 634, 2019.
S. A. H. Mohsan, M. A. Khan, F. Noor, I. Ullah, and M. H. Alsharif, "Towards the unmanned aerial vehicles (uavs): A comprehensive review," Drones, vol. 6, no. 6, p. 147, 2022.
FAA, "Drones by the numbers," https://www.faa.gov/node/54496, 2025.
H. Kurunathan, H. Huang, K. Li, W. Ni, and E. Hossain, "Machine learning-aided operations and communications of unmanned aerial vehicles: A contemporary survey," IEEE Communications Surveys & Tutorials, vol. 26, no. 1, pp. 496–533, 2023.
Z. Ning, H. Hu, X. Wang, L. Guo, S. Guo, G. Wang, and X. Gao, "Mobile edge computing and machine learning in the internet of unmanned aerial vehicles: a survey," ACM Computing Surveys, vol. 56, no. 1, pp. 1–31, 2023.
D. Guo, Z. Zhang, B. Yang, J. Zhang, H. Yang, and Y. Lin, "Integrating spoken instructions into flight trajectory prediction to optimize automation in air traffic control," Nature Communications, vol. 15, no. 1, p. 9662, 2024.
Y. Han, H. Liu, Y. Wang, and C. Liu, "A comprehensive review for typical applications based upon unmanned aerial vehicle platform," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 15, pp. 9654–9666, 2022.
Y. Gao, Z. Wang, L. Jing, D. Wang, X. Li, and B. Zhao, "Aerial vision-and-language navigation via semantic-topo-metric representation guided llm reasoning," arXiv preprint arXiv:2410.08500, 2024.
M. Chu, Z. Zheng, W. Ji, T. Wang, and T.-S. Chua, "Towards natural language-guided drones: Geotext-1652 benchmark with spatial relation matching," in European Conference on Computer Vision. Springer, 2024, pp. 213–231.
X. Wang, D. Yang, Z. Wang, H. Kwan, J. Chen, W. Wu, H. Li, Y. Liao, and S. Liu, "Towards realistic uav vision-language navigation: Platform, benchmark, and methodology," arXiv preprint arXiv:2410.07087, 2024.
M. Jones, S. Djahel, and K. Welsh, "Path-planning for unmanned aerial vehicles with environment complexity considerations: A survey," ACM Computing Surveys, vol. 55, no. 11, pp. 1–39, 2023.
A. Tagliabue, K. Kondo, T. Zhao, M. Peterson, C. T. Tewari, and J. P. How, "Real: Resilience and adaptation using large language models on autonomous aerial robots," in 2024 IEEE 63rd Conference on Decision and Control (CDC). IEEE, 2024, pp. 1539–1546.
H. Tang, Y. Zhang, V. Mohmoodian, and H. Charkhgard, "Automated flight planning of high-density urban air mobility," Transportation Research Part C: Emerging Technologies, vol. 131, p. 103324, 2021.
W. Sribunma, L.-Y. Lin, K. A. Pant, C. Deng, J. M. Goppert, S. Brunswicker, and J. Roberts, "Mixed-reality testbed for autonomous fixed-wing uavs human-autonomy teaming," in 2024 International Conference on Assured Autonomy (ICAA). IEEE, 2024, pp. 94–97.
V. Roberge, M. Tarbouchi, and G. Labonté, "Fast genetic algorithm path planner for fixed-wing military uav using gpu," IEEE Transactions on Aerospace and Electronic Systems, vol. 54, no. 5, pp. 2105–2117, 2018.
H. Wang, J. Wang, G. Ding, J. Chen, F. Gao, and Z. Han, "Completion time minimization with path planning for fixed-wing uav communications," IEEE Transactions on Wireless Communications, vol. 18, no. 7, pp. 3485–3499, 2019.
F. Song, H. Xing, X. Wang, S. Luo, P. Dai, Z. Xiao, and B. Zhao, "Evolutionary multi-objective reinforcement learning based trajectory control and task offloading in uav-assisted mobile edge computing," IEEE Transactions on Mobile Computing, vol. 22, no. 12, pp. 7387–7405, 2022.
H. Gong, B. Huang, and B. Jia, "Energy-efficient 3-d uav ground node accessing using the minimum number of uavs," IEEE Transactions on Mobile Computing, 2024.
Y. Wang, J. Zhu, H. Huang, and F. Xiao, "Bi-objective ant colony optimization for trajectory planning and task offloading in uav-assisted mec systems," IEEE Transactions on Mobile Computing, 2024.
M. Zhao, R. Zhang, Z. He, and K. Li, "Joint optimization of trajectory, offloading, caching, and migration for uav-assisted mec," IEEE Transactions on Mobile Computing, 2024.
G. Sun, Y. Wang, Z. Sun, Q. Wu, J. Kang, D. Niyato, and V. C. Leung, "Multi-objective optimization for multi-uav-assisted mobile edge computing," IEEE Transactions on Mobile Computing, 2024.
C. Deng, W. Sribunma, S. Brunswicker, J. M. Goppert, and I. Hwang, "3d path planning with weather forecasts, ground risks, and airspace information for uav mid-mile delivery," in AIAA SCITECH 2025 Forum, 2025, p. 1806.
F. A. Administration, Airplane flying handbook (FAA-H-8083-3A). Skyhorse Publishing Inc., 2011.
Mission Control, "Windracers Mission Control," https://windracers.com/ultra/#software, 2025.
OpenAI, "Hello gpt-4o," https://openai.com/index/hello-gpt-4o/, 2024.
J. Kennedy and R. Eberhart, "Particle swarm optimization," in Proceedings of ICNN’95-International Conference on Neural Networks, vol. 4, 1995, pp. 1942–1948 vol.4.
AirNav, LLC, "AirNav: Airport, FBO & Fuel Prices Information," https://www.airnav.com/, 2025.
Riverbank Computing, "PyQt5," https://www.riverbankcomputing.com/static/Docs/PyQt5/, 2025.
A. Abouelenin, A. Ashfaq, A. Atkinson, H. Awadalla, N. Bach, J. Bao, A. Benhaim, M. Cai, V. Chaudhary, C. Chen et al., "Phi-4-mini technical report: Compact yet powerful multimodal language models via mixture-of-loras," arXiv preprint arXiv:2503.01743, 2025.
Windracers, "Windracers ULTRA," https://windracers.com/ultra/, 2025.
PX4 Development Team, "PX4 Autopilot," https://px4.io/, 2025.
ArduPilot, "Mission Planner Overview," https://ardupilot.org/planner/, 2024.
OpenStreetMap contributors, "Planet dump retrieved from https://planet.osm.org," https://www.openstreetmap.org, 2017.
Yelp Inc., "Yelp open dataset," https://business.yelp.com/data/resources/open-dataset/, accessed: 2025-09-07.
OpenAIP, "OpenAIP," https://www.openaip.net/.
Herbie, "Herbie: Retrieve NWP Model Data," https://herbie.readthedocs.io/en/stable/, 2025.
V. Furnon and L. Perron, "Or-tools routing library," Google. [Online]. Available: https://developers.google.com/optimization/routing/
L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray et al., "Training language models to follow instructions with human feedback," Advances in neural information processing systems, vol. 35, pp. 27730–27 744, 2022.
Y. Sun, N. Salami Pargoo, P. Jin, and J. Ortiz, "Optimizing autonomous driving for safety: A human-centric approach with llm-enhanced rlhf," in Companion of the 2024 on ACM International Joint Conference on Pervasive and Ubiquitous Computing, 2024, pp. 76–80.
Z. Huang, Z. Sheng, and S. Chen, "Trustworthy human-ai collaboration: Reinforcement learning with human feedback and physics knowledge for safe autonomous driving," arXiv preprint arXiv:2409.00858, 2024.
