基于大型语言模型(LLMs)的Agent在全局规划中容易进行无脑试错,在局部规划中生成幻觉动作,因为它们对“真实”物理世界的理解不足。人类在面对特定任务时,会利用丰富的先验知识在心中预演整个过程,然后才采取行动,这种知识被称为全局任务知识。在任务过程中,还会不断维护一种局部状态知识,代表对当前世界状态的认知。缺乏世界知识会导致在早期规划阶段出现盲目试错,在后期则可能导致对当前世界状态的混乱认知并生成幻觉动作。
任务知识合成(Task Knowledge Synthesis):
通过比较专家轨迹和采样轨迹来获取任务知识,这些知识作为指导智能体全局规划的先验知识,防止智能体陷入盲目试错。
使用经验丰富的智能体进行探索,通过训练集生成被拒绝的轨迹,以提取更有针对性的任务知识。
利用智能体自身,根据专家轨迹和被拒绝的轨迹来合成任务知识。
状态知识总结(State Knowledge Summarization):
状态知识作为动态知识,用于约束智能体的局部规划,防止生成幻觉动作。
引导智能体基于专家轨迹自我总结每个规划步骤的状态知识,确保质量。
构建状态知识库,用于检索,而不是直接将状态知识显式地连接到上下文中。
模型训练(Model Training):
将生成的世界知识整合到专家轨迹中,并训练一个WKM。
智能体模型需要重新训练,以适应任务知识的整合。
智能体模型和知识模型都使用LoRA共享相同的主干进行训练。
智能体规划与世界知识模型(Agent Planning with World Knowledge Model):
在推理时,智能体模型在评估任务中使用WKM的辅助进行规划。
知识模型先生成任务知识,然后智能体模型开始规划。
使用状态知识查询状态知识库,检索最近的行动,并结合智能体模型的概率进行加权预测,以确定下一个行动。
其他有趣的发现包括:
实例级任务知识可以更好地泛化到未见过的任务
弱WKM可以指导强Agent模型规划
统一WKM训练具有进一步开发的潜力
Agent Planning with World Knowledge Modelhttps://arxiv.org/pdf/2405.14205https://github.com/zjunlp/WKM
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。