大语言模型 · 6 月 29 日

人工智能技术的发展极大推动了智能博弈决策问题求解范式的变革,从最优解、均衡解到适 变解,如何构建基于生成式大模型的智能博弈自适应决策智能体充满挑战。博弈强对抗环境中兵力 分配和多实体协同是研究排兵布阵和作战协同的核心课题。基于技能、排序和偏好元博弈模型构建 的策略强化学习、策略博弈树搜索与策略偏好投票选择方法,设计了满足生成时规划的大模型智能 体架构。该架构可对齐指挥员意图,具有可行性、适用性、扩展性,可为自适应决策过程提供可解 释性策略推荐。从基座模型构建、目标引导博弈强化学习和开放式元博弈策略学习分析了关键技术 需求。期望为强化学习类模型、博弈学习类模型与生成式大语言模型结合的交叉研究提供参考。

为了推进美国战略与预算评估中心提出的“决 策中心战”,DARPA 于 2017 年提出了马赛克战概 念,兰德公司利用上校布洛托博弈(Colonel Blotto Game)研究了马赛克战作战资源分配问题[1]。作战 资源分配主要包括兵力、火力、武器和后勤等子问 题,上校布洛托博弈作为一类典型的兵力布势问题 模型[2],为排兵布阵问题研究提供了基准参考。作 为上校布洛托博弈模型的泛化形式,强权外交 (Diplomacy)这款桌游(特别是无通信版本)很好地 刻画了多方一般和多阶段不完美信息博弈的动态 交互过程[3]。为了利用智能博弈相关技术研究作战 协同问题,DARPA 启动“打破游戏规则的人工智 能探索 ”(Gamebreaker Artificial Intelligence Exploration)项目[4],致力于开发人工智能并将其应 用到现有的开放世界视频游戏中,以定量评估游戏 平衡,确定显著有助于游戏平衡的基本参数,并从 新功能、战术和规则修改等角度探索导致游戏不稳 定性的变量,旨在为美军创造更大的作战优势,或 在对手寻求优势时寻求对抗的平衡。 如何生成多种类型行动方案计划为指挥员推 荐策略选项是联合全联指控中为对手制造多重困 境(dilemma)的主要方法途径[5]。利用军事人工智能 技术辅助决策推荐是当前的研究前沿[6]。早期的一 些研究采用抽象桌游(abstract board games, ABG) 来实时分析大规模对抗问题,如 Stilman 等[7]基于 语言几何(linguistic geometry, LG)工具与博弈理论 构建的私人参谋长,Serge 等[8]基于语言几何与对 抗情报推理决策构建的计算机模拟程序 LG-RAID,其中语言几何作为软件程序的大脑负责 预测对手的作战行动方案。近年来,围绕多方对抗 问题,2020 年 DARPA 开展了针对“对战敌方战术 的构建性机器学习”(constructive machine learning battle for enemy tactics, COMBAT)项目[9],利用自 然语言处理提取非结构化文本信息,利用博弈论与 强化学习等方法生成应对美军的作战行动方案,旨 在为仿真环境提供敌军旅级兵力行动模拟。2023 年美国海军陆战队大学以 Command 为基准环境, 开展了将生成式人工智能应用于仿真与兵棋推演 的相关探索[10]。Hinton 等[11]分析了生成式人工智 能在兵棋推演领域的想定生成、对手 AI、红队等 方面的应用前景。许霄等[12]提出了作战行动序列引 导和约束的联合作战兵棋推演智能决策框架,设计 了目标驱动的自适应作战控制和任务式指令驱动 的战术任务策略优化模块。 人工智能技术的跨越式发展为智能博弈决策 问题求解定义了新范式,从传统的优化理论最优 解、博弈理论均衡解,逐渐过渡至如今的模型理论 适变解[13]。为智能指控系统构建多范式融合的博弈 决策策略推荐方法充满挑战。 本文围绕智能博弈自适应决策挑战,基于元博 弈模型设计了决策大模型智能体的指控思维链,以 满足生成时规划,最后从决策基座模型构建、智能 博弈决策策略学习和人机协同决策方式共三个方 面分析了关键技术需求。

成为VIP会员查看完整内容 智能博弈决策大模型智能体技术综述 点赞并收藏