本节讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据。
通常在机器学习中,训练数据和测试(评估)数据是相似的或至少是相同的类型。对大型语言模型来说,训练数据只是“原始文本”。
一、大语言模型背后的数据
LLM是根据“原始文本”进行训练的。为了具备语言和世界知识,本文应涵盖广泛的领域、语言等...
网络是广泛数据的来源之一,Google 搜索索引为 100 PB(参考)。实际的网络可能更大,而深网甚至更大。
深网(Deep Web)是指不能被标准搜索引擎索引的万维网内容。与深网相反的术语是表网,任何人都可以使用互联网访问。深网可以直接通过的URL或IP地址访问,但可能需要输入密码或其他安全信息才能访问实际内容。如网络邮件、网络银行等。
Common Crawl是一个非营利组织,负责抓取网络并向公众免费提供。它已成为训练 T5、GPT-3 和 Gopher 等许多模型的标准数据源。Common Crawl 2021 年 4 月的Snap有 320 TB 的数据,比 Google 索引小几个数量级。
二、一些数据现象
尽管规模很大,但大规模数据在总体中的代表性仍然不均匀。
互联网数据中来自发达国家的年轻用户比例较高。
GPT-2的训练数据基于Reddit,2016年的调查,美国67%的Reddit用户是男性,其中64%年龄在18岁到29岁之间。
8-15% 的维基百科用户是女性。
互联网上的骚扰会让某些人(跨性别者、神经分歧者)望而却步。
过滤“脏话”可能会进一步边缘化某些人群(例如 LGBT+)。
三、WebText
WebText 数据集用于训练 GPT-2。
3.1 目标: 获得多样化但高质量的数据集。
3.2 数据集:
根据新闻、维基百科或小说进行训练。
Common Crawl,Trinh & Le,2018 年根据与目标任务的 n 元语法重叠选择了 Common Crawl 的一个小子集。
link
3.3 创建WebText:
抓取所有至少获得 3 karma(赞成票)的出站链接。karma,常指的是在社交媒体或在线社区中的积分或评级系统中的一种形式
过滤掉维基百科,以便能够对基于维基百科的基准进行评估。
最终结果是 40 GB 的文本。
3.4 OpenWebText:
link:
WebText 不是由 OpenAI 发布的,但它集合进OpenWebText。
从Reddit 中提取了所有 URL 。
link:
使用 Facebook 的fastText过滤掉非英语。
删除了重复项。
结果是 38 GB 的文本。
3.5 毒性分析。
Gehman et al. 2020RealToxicityPrompts论文,分析了如上两个数据集发现:
link:
2.1% 的 OpenWebText 毒性分数 >= 50%
4.3% 的 WebText(来自 OpenAI)的毒性分数 >= 50%
新闻可靠性与毒性呈负相关
3% 的 OpenWebText 来自禁止或隔离的 subreddits,
四、Colossal Clean Crawled Corpus ( C4 )
一个更大的语料库,是为了训练 T5 模型而创建的。
从 2019 年 4 月 Common Crawl Snap 开始(1.4 万亿tokens)
删除了“bad words”
删除的代码块
过滤掉非英语文本
生成 806 GB 文本(1560 亿个令牌)
来自 Patents.google.com 的数据量惊人
patents.google.com 是一个由 Google 提供的在线专利搜索平台。该网站提供了一个便捷的方式来搜索、浏览和阅读各种专利文件。
在互联网档案馆中 65% 的页面中;92% 的页面是在过去十年中编写的
51.3% 的页面托管在美国;很少在印度,尽管印度有很多说英语的人。
Patents.google.com 中的一些文本是自动创建的,因此存在系统错误:
五、GPT-3数据集
Common Crawl 的子集,类似于WebText
执行模糊重复数据删除(13-gram重叠)
数据源的多样性(WebText2、Books1、Books2、Wikipedia)。
在训练过程中,Common Crawl 被下采样(Common Crawl 占数据集的 82%,但只贡献了 60%)。
六、Pile
link:
其关键思想是从较小的高质量资源(学术+专业资源)中获取数据。
825 GB English text
22 high-quality datasets
七、Summary
网络数据量巨大。
数据处理很重要,对“所有内容”(甚至是 Common Crawl)的训练效果不佳(无法有效利用计算)。
需要过滤/管理(OpenWebText、C4、GPT-3 数据集),但也可能会导致偏差。
管理非网络高质量数据集是有前途的(The Pile)。
仔细记录、检查、管理数据集很重要。
八、Further Reading
Documentation for datasets
Datasheets for datasets.(Communications of the ACM 2018.)
Data Statements for Natural Language Processing: Toward Mitigating System Bias and Enabling Better Science
Model Cards for Model Reporting. (FAT 2018.)
Datasets
CommonCrawl:
OpenWebText (Train GPT-2):
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data.
The Pile(Train GPT-J): An 800GB Dataset of Diverse Text for Language Modeling
Analysis of datasets:
Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus.
Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets.
Filtering datasets:
An Empirical Exploration in Quality Filtering of Text Data
Deduplicating Training Data Makes Language Models Better.