聊天机器人如GPT-4和ChatGPT被广泛使用,但缺乏公共数据集来展示这些工具的实际使用情况。为了弥补这一空白,提出了WILDCHAT项目,旨在收集用户与ChatGPT的互动日志。该项目促进了对话AI研究,特别是在多轮对话、多语言交互以及用户行为分析方面。- 通过提供ChatGPT的免费访问,收集了用户的聊天记录和请求头信息。
- 使用GPT-3.5-Turbo API和GPT-4 API部署了两个聊天机器人服务,并通过Hugging Face Spaces公开。
- 收集过程遵循用户同意机制,确保数据收集的合法性和伦理性。
![]()
- 对收集到的数据进行预处理,包括将轮次匹配成对话、匿名化个人信息等。
- 使用工具如Microsoft’s Presidio和Spacy进行数据清洗,以去除个人身份信息。
- WILDCHAT数据集包含100万条用户与ChatGPT的对话记录,超过250万个交互轮次。
![]()
- 数据集丰富多样,包含多种语言,并且提供了用户人口统计信息。
![]()
![]()
![]()
- 进行了毒性分析,使用OpenAI Moderation API和Detoxify工具来检测和分类不安全内容。
- 利用WILDCHAT数据集对Llama-2 7B模型进行指令调优,创建了WILDLLAMA模型,并在MT-bench上评估了其性能。
![]()
WILDCHAT: 1M CHATGPT INTERACTION LOGS IN THE WILDhttps:https:https:
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。