大型语言模型(LLMs)在多种任务中表现出色,但存在诸如幻觉(hallucinations)、时间错位(temporal misalignments)、上下文处理问题和微调效率低下等挑战。为了解决这些问题,研究人员通过检索增强型生成(RAG)方法,将外部知识源与LLMs结合,显著提高了复杂问题的准确回答能力。传统的RAG架构包括检索模块和阅读模块,但存在检索质量低下和生成不可靠答案的问题。
通过在六个数据集和三类问答任务(单轮、单轮多跳、多会话多轮问答)上的严格评估,ERAGent在准确性、效率和个性化方面表现出色,强调了其推进RAG领域和实际系统应用的潜力。
单轮开放领域问答任务中回答准确性的评估指标
单轮多跳问答任务中回答准确性的评估指标
响应效率和质量指标与相似性阈值 τ 的关系
效率与质量的平衡:ERAGent框架通过调整相似度阈值τ,展示了在回答效率和质量之间取得平衡的能力。通过实验,发现τ=0.6时,响应时间最短,同时保持了较高的回答质量。
时间成本(Time Cost):当τ设置为0.6时,ERAGent框架的平均响应时间最低,这意味着在此阈值下,AI能够更快地生成回答。
外部知识(External Knowledge):在τ=0.6的设置下,ERAGent几乎不依赖外部知识,而是利用已有的经验知识来生成回答,这有助于提高效率。
不相关信息(Irrelevant Knowledge):在相同的τ设置下,ERAGent还能够有效地过滤掉不相关信息,确保了回答的相关性和质量。
回答质量:即使在完全依赖外部知识的τ=1.0设置下,ERAGent生成的回答也有80%达到了或超过了首次回答的质量。而当τ调整为0.8时,回答质量甚至超过了τ=1.0时的结果,这表明利用高相关性的历史经验可以生成更高质量的回答。
https://arxiv.org/pdf/2405.06683ERAGent: Enhancing Retrieval-Augmented Language Models with Improved Accuracy, Efficiency, and Personalization
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。