数据狂潮,AI 突破! 随着人工智能时代的到来,数据规模成为制约大型语言模型发展的重要瓶颈。2024年,由人工智能先驱 Hugging Face 推出的 FineWeb 数据集,以 15万亿 Token 的惊人体量,打破了公开数据集规模和质量的藩篱,成为 AI 领域的一大突破。
![]()
数据狂潮下的突破者
随着人工智能时代的到来,各类语言模型如雨后春笋般涌现。而要训练一个高质量的大型语言模型,巨量优质数据是必不可少的"养分"。2024年,似乎终于在数据集的规模上突破了某种瓶颈。
从今年初的RedPajama 2最高30万亿Token,到DBRX 12万亿Token、Reka系列5万亿,再到Llama 3直逼15万亿......数据集的规模已然上升到了前所未有的高度。与此同时,主流公开数据集仍普遍停留在C4、The Pile这种2万亿左右的量级,让那些希望自主训练语言大模型的机构望洋兴叹。
FineWeb的冉冉崛起
在这个关键时刻,人工智能先驱Hugging Face推出了FineWeb数据集,打破了公开数据集规模和质量的藩篱。 何为FineWeb
FineWeb由来自2013年至2024年的95期CommonCrawl网络数据萃取而成,规模高达15万亿Token,创下公开数据集新纪录。与此同时,FineWeb采用层层筛选和精心去重,大幅提升了数据质量。该数据集不仅在基准测试中力压群雄,甚至优于许多闭源数据集的表现。Hugging Face不吝分享FineWeb的处理流程与代码,令其制作过程透明可追溯。 数据集结构
● text: 网页主体文本内容
● id:CommonCrawl原始样本ID
● dump: 所属的CommonCrawl数据采集周期
● url: 网页原始链接
● date: 数据采集日期
● file_path: 原始warc文件在s3的路径
● language: 文本语种(此处全部为英语en)
● language_score: 语种置信度分数
● token_count: 根据GPT-2分词器统计的文本Token数量
以下是一个来自数据集的示例样本。它是 CC-MAIN-2021-43 的一部分,并于 2021-10-15T21:20:12Z 被爬取。
{ "text": "This is basically a peanut flavoured cream thickened with egg yolks and then set into a ramekin on top of some jam. Tony, one of the Wedgwood chefs, suggested sprinkling on some toasted crushed peanuts at the end to create extra crunch, which I thought was a great idea. The result is excellent.", "id": "<urn:uuid:e5a3e79a-13d4-4147-a26e-167536fcac5d>", "dump": "CC-MAIN-2021-43", "url": "<http://allrecipes.co.uk/recipe/24758/peanut-butter-and-jam-creme-brulee.aspx?o_is=SimilarRecipes&o_ln=SimRecipes_Photo_7>", "date": "2021-10-15T21:20:12Z", "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2021-43/segments/1634323583083.92/warc/CC-MAIN-20211015192439-20211015222439-00600.warc.gz", "language": "en", "language_score": 0.948729, "token_count": 69}
整个数据集可以按采集周期(dump)进行切分使用。团队建议在中小规模训练时,优先使用近期的2023年50周期和2024年10周期数据。 数据集创建
FineWeb团队在透明度方面亦下了一番功夫。他们公开了全部数据处理代码,并在技术报告中详细阐述了处理思路,确保数据集产生的每一个细节都可追溯。制作过程中,他们首先从CommonCrawl网页采集数据中提取出网页主体文本,然后经过如下主要处理步骤:● 网址过滤:多重黑名单过滤风险网站,子词扫描发现新型风险网址
● 文本提取:使用Trafilatura提取工具从HTML中析出主体内容
● 语种过滤:通过FastText模型剔除英文评分低于0.65的样本
● 质量过滤:综合应用多个约束规则,移除格式混乱、内容重复等低质量文本
● 去重处理:使用MinHash对每个采集周期的数据分别进行5-gram去重
● 隐私保护:使用正则表达式匿名化敏感信息如邮箱、IP地址
● 标注处理:对文本语种、分数、Token数量等信息进行自动标注
这种分阶段、多重筛选的模式,保证了FineWeb水准之上佳。
FineWeb的卓越质量
FineWeb的质量控制做到了前所未有的彻底。通过多重过滤器,它们剔除了网址风险、语种不当、格式混乱等低质量数据。除了常规过滤,FineWeb还匿名化了邮箱地址和公网IP,以保护隐私安全。 FineWeb的规模纪录
除了精益求精,FineWeb的另一大亮点当属其空前的数据规模。15万亿Token的惊人体量,不啻在公开数据集领域树立了新的里程碑。
内在力量:多层清洗原理
要打造出如此高水准的数据集,FineWeb需要经历一个错综复杂的清洗流程。我们可以从三个层面窥探其内在原理。 URL及文本内容双管齐下
FineWeb的筛选工作兼顾网址和网页内容两条主线。● URL方面:它使用了多重阻挡列表,过滤掉色情、非法等风险网站。同时通过子词扫描机制识别潜在有害网址。
● 文本内容层面:则采用语种识别、质量评分等多道关卡,确保数据干净、格式规范。
双管齐下的方式最大限度剔除了数据中的潜在"污染源"。 微观上的隐私保护
除了宏观层面的内容把关,FineWeb还着眼于微观层面的隐私保护。它采用了正则表达式对邮箱地址和公网IP进行了匿名化处理,以避免泄露个人信息。这种对隐私的高度重视,体现了FineWeb在数据安全和道德层面的卓越造诣。 新型筛选器拓展数据边界
FineWeb的创新更体现在针对性设计的一系列新型筛选器上。它们旨在消除格式错乱、内容重复等影响模型训练的陷阱,为模型提供格式一致、逻辑清晰的优质语料。譬如针对网页列表式内容的清理、自动修正换行格式错误等处理,都是FineWeb超越既往的独到之处。通过这些全新手段,FineWeb进一步扩展了高质量数据的边界。
绝佳体验:性能评估
产品的真正品质需要通过检验来彰显。FineWeb在测试环节展现了令人赞叹的表现。 测试环境准备
FineWeb团队训练了一系列1.8亿参数的基线模型,在27亿Token数据上进行评测。为了对比不同数据集的效果,他们还在350亿Token分别训练了针对多个主流数据集的基线模型。 评测采用了多项具有代表性和区分度的基准测试,涵盖常识推理、多选阅读理解等语言理解任务,覆盖面广、难度适中。 主流数据集对比
通过这些基准测试,FineWeb展现出了超越其他主流公开数据集的优异成绩,包括:不仅如此,FineWeb结果甚至超越了一些知名的闭源数据集,可见其质量的卓越程度。 结果分析与洞见
FineWeb能够取得如此骄人的成绩,除了其高质量数据集本身的作用外,创新的数据处理思路也是一大功臣。例如单独对每个抓取周期进行去重,就显著优于一次性对全量数据去重的传统做法。这种洞见有助于提高数据质量,避免削弱样本间的关联关系。总的来说,FineWeb在性能评估环节完美印证了其高质量和高水准,为后续的工业级应用奠定了基础。
FineWeb的前景与影响
作为一个开创性的大规模高质量数据集,FineWeb将对人工智能界带来深远影响。 加速开源大模型发展
过去,大规模的高质量预训练数据集一直是训练大型开源语言模型的瓶颈。FineWeb的问世打破了这一局限,为开源社区提供了内部大模型的"营养素",将加速开源大模型的发展步伐。 引领良性数据集竞争
FineWeb的出现还有助于营造一种数据集层面的良性竞争环境。相较于闭源做法,公开透明的处理流程可被社区审视、反馈和完善,有利于建立数据集的规范。 开启通用AI新时代
总的来说,FineWeb标志着通用人工智能迈向新阶段。在数据集质量和规模双管齐下后,训练出通用能力强大的开源大模型指日可待。到那时,人工智能将真正实现民主化,惠及更广大群众。
未来FineWeb的几点展望
尽管FineWeb已经取得了瞩目的成就,但其背后团队也坦言,在数据集的升级优化上还有许多值得探索的方向,比如:人工智能的未来,离不开优质数据的源源供给。FineWeb虽然只是第一步,但已为通用人工智能迈向更高层次做好了准备。让我们共同期待,这个开源数据集接下来会有怎样的精彩续作。
数据集传送门:
https://huggingface.co/datasets/HuggingFaceFW/fineweb