VLN
约 696 字大约 2 分钟
2025-12-27
具身智能
什么是具身智能(Embodied AI)
具身智能是指研究能够感知、推理、行动并与物理世界交互的智能体。
感知 通过传感器接收外部信息,如视觉、声音、语言等。
推理 结合感知信息与人类指令,进行任务推理。
行动 在物理世界中移动或与物体交互(如抓取)。
学习机制 必须通过身体(body)与环境的交互实现学习和理解。
区别于传统AI:
- 传统AI侧重符号推理(symbolic reasoning)或数据驱动模式识别。
- 具身智能强调与真实世界的动态交互。
为什么需要具身智能
真实世界的复杂性 真实环境涉及物理常识、碰撞、温度变化、光照变化等复杂因素。
通往通用人工智能(AGI)的关键一步 具身智能整合了计算机视觉、自然语言处理、机器人控制等多个AI方向,被视为实现AGI的重要路径。
广泛的实际应用场景 包括机器人技术、智能家居、虚拟助手、灾难救援等。
新的学习范式
需结合监督学习、无监督学习与强化学习。
- 初始阶段使用监督学习进行模型初始化。
- 后期通过强化学习与环境交互持续优化模型。
VLN和具身智能的关系
- VLN是具身智能的一个子领域。
- 类比人体结构:
- 上半身对应操作任务(manipulation),如机械臂抓取。
- 下半身对应导航任务,即在空间中移动。
- VLN占据具身智能中“下半身”的核心地位。
VLN基础概念
V(计算机视觉)
集成了分类,检测和分割的能力。
图像识别
判断当前所处环境类型,如厨房、卧室等,提供全局语境。
目标检测
解决“我周围有什么物体”这一问题,要求同时识别物体类别并定位其位置
语义分割
要求像素级别的标注,不仅识别物体,还需明确其形状和边界
L(语言处理)
词嵌入
将离散的词语符号映射为连续的、低维稠密向量,表达语义。词嵌入作为语言理解的起点,为编码完整且富含上下文的导航指令提供输入。
序列模型(RNN到Transformer)
RNN(早期方法)
使用带有memory cell的循环结构处理序列信息,有效捕捉上下文关联。
Transformer
以自注意力为核心,融合语言、视觉及历史状态信息。将所有模态的信息整合进统一骨干网络进行处理。
