多模态数据驱动的无人平台智能规划方法研究
作者单位:国防科技大学
学位级别:硕士
导师姓名:张煜
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:在部分可观环境中遂行多样化任务,无人平台需要依托传感器收集环境信息或用户语言描述等多模态数据,并对世界状态保持不间断地感知、更新和理解。传统规划领域知识表示及描述语言难以准确建模真实环境,且经典规划方法不具备从历史求解经验中学习的能力,难以泛化到异构环境或多类任务。而数据驱动的、基于学习的规划求解方法使用低维稠密向量表示多模态信息,利用机器学习算法从大量的任务数据中挖掘规划模型,具备一定的泛化性能和较高的求解效率。本文围绕多模态数据驱动的无人平台智能规划问题展开研究,主要针对无地图、部分可观条件下视觉和语言数据驱动的智能规划问题,提出了知识辅助的智能任务分解算法,并构建了多模态数据驱动的、基于分层策略的智能规划模型,最后依托于高仿真交互框架实现训练和评估。论文的主要工作和贡献概述如下:(1)描述和分析了多模态数据驱动的智能规划问题并提出解决方案。形式化描述了视觉和语言数据驱动的智能规划问题,重点分析了长序列组合规划、环境部分可观、语言模糊性等关键挑战,进而提出了智能任务分解和基于分层策略的动态规划算法以应对上述问题,最后分析并介绍了实验中采用的视觉和语言数据的处理算法。(2)提出了基于预训练模型和领域知识图谱的智能任务分解算法。在无视觉输入条件下,针对自然语言指令的理解问题,构建了以对象和任务为中心的领域知识图谱,并设计一种嵌入算法将语义知识融入到预训练语言模型中以提高语义认知能力,最后搭建一个序列到序列模型将语言指令转换为子任务序列,初步实现了智能任务分解。实验结果表明,本文提出的知识赋能的任务分解算法,相比于现有模型的任务分解正确率提升了约5%。(3)构建了基于Transformer和分层策略的智能规划算法,并在高仿真交互平台上实现自主移动和交互操作。在无地图、部分可观条件下,面向子任务序列设计了指令选择器以实现分层规划,使用预训练模型编码自然语言指令和历史视觉图像,之后利用多层Transformer融合多模态数据,最后构建了决策推理网络,生成原子动作序列和相应的对象交互掩码,并与仿真环境交互以评估规划实效。实验结果表明,本文提出的多模态数据驱动的无人平台智能规划算法能够有效完成导航和操作的组合任务,初步具备了自主规划能力。