从0到1学习大语言模型课程——4. LLM大语言模型背后的数据

本节讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据。

通常在机器学习中,训练数据和测试(评估)数据是相似的或至少是相同的类型。对大型语言模型来说,训练数据只是“原始文本”。

一、大语言模型背后的数据

LLM是根据“原始文本”进行训练的。为了具备语言和世界知识,本文应涵盖广泛的领域、语言等...

网络是广泛数据的来源之一,Google 搜索索引为 100 PB(参考)。实际的网络可能更大,而深网甚至更大。

深网(Deep Web)是指不能被标准搜索引擎索引的万维网内容。与深网相反的术语是表网,任何人都可以使用互联网访问。深网可以直接通过的URL或IP地址访问,但可能需要输入密码或其他安全信息才能访问实际内容。如网络邮件、网络银行等。

Common Crawl是一个非营利组织,负责抓取网络并向公众免费提供。它已成为训练 T5、GPT-3 和 Gopher 等许多模型的标准数据源。Common Crawl 2021 年 4 月的Snap有 320 TB 的数据,比 Google 索引小几个数量级。

二、一些数据现象

尽管规模很大,但大规模数据在总体中的代表性仍然不均匀。

互联网数据中来自发达国家的年轻用户比例较高。

GPT-2的训练数据基于Reddit,2016年的调查,美国67%的Reddit用户是男性,其中64%年龄在18岁到29岁之间。

8-15% 的维基百科用户是女性。

互联网上的骚扰会让某些人(跨性别者、神经分歧者)望而却步。

过滤“脏话”可能会进一步边缘化某些人群(例如 LGBT+)。

三、WebText

WebText 数据集用于训练 GPT-2。

3.1 目标: 获得多样化但高质量的数据集。

3.2 数据集:

根据新闻、维基百科或小说进行训练。

Common Crawl,Trinh & Le,2018 年根据与目标任务的 n 元语法重叠选择了 Common Crawl 的一个小子集。

link

3.3 创建WebText:

抓取所有至少获得 3 karma(赞成票)的出站链接。karma,常指的是在社交媒体或在线社区中的积分或评级系统中的一种形式

过滤掉维基百科,以便能够对基于维基百科的基准进行评估。

最终结果是 40 GB 的文本。

3.4 OpenWebText:

link:

WebText 不是由 OpenAI 发布的,但它集合进OpenWebText。

从Reddit 中提取了所有 URL 。

link:

使用 Facebook 的fastText过滤掉非英语。

删除了重复项。

结果是 38 GB 的文本。

3.5 毒性分析。

Gehman et al. 2020RealToxicityPrompts论文,分析了如上两个数据集发现:

link:

2.1% 的 OpenWebText 毒性分数 >= 50%

4.3% 的 WebText(来自 OpenAI)的毒性分数 >= 50%

新闻可靠性与毒性呈负相关

3% 的 OpenWebText 来自禁止或隔离的 subreddits,

四、Colossal Clean Crawled Corpus ( C4 )

一个更大的语料库,是为了训练 T5 模型而创建的。

从 2019 年 4 月 Common Crawl Snap 开始(1.4 万亿tokens)

删除了“bad words”

删除的代码块

过滤掉非英语文本

生成 806 GB 文本(1560 亿个令牌)

图片[1]-从0到1学习大语言模型课程——4. LLM大语言模型背后的数据-JieYingAI捷鹰AI

来自 Patents.google.com 的数据量惊人

patents.google.com 是一个由 Google 提供的在线专利搜索平台。该网站提供了一个便捷的方式来搜索、浏览和阅读各种专利文件。

在互联网档案馆中 65% 的页面中;92% 的页面是在过去十年中编写的

51.3% 的页面托管在美国;很少在印度,尽管印度有很多说英语的人。

Patents.google.com 中的一些文本是自动创建的,因此存在系统错误:

五、GPT-3数据集

图片[2]-从0到1学习大语言模型课程——4. LLM大语言模型背后的数据-JieYingAI捷鹰AI

Common Crawl 的子集,类似于WebText

执行模糊重复数据删除(13-gram重叠)

数据源的多样性(WebText2、Books1、Books2、Wikipedia)。

在训练过程中,Common Crawl 被下采样(Common Crawl 占数据集的 82%,但只贡献了 60%)。

六、Pile

link:

其关键思想是从较小的高质量资源(学术+专业资源)中获取数据。

图片[3]-从0到1学习大语言模型课程——4. LLM大语言模型背后的数据-JieYingAI捷鹰AI

825 GB English text

22 high-quality datasets

七、Summary

网络数据量巨大。

数据处理很重要,对“所有内容”(甚至是 Common Crawl)的训练效果不佳(无法有效利用计算)。

需要过滤/管理(OpenWebText、C4、GPT-3 数据集),但也可能会导致偏差。

管理非网络高质量数据集是有前途的(The Pile)。

仔细记录、检查、管理数据集很重要。

八、Further Reading

Documentation for datasets

Datasheets for datasets.(Communications of the ACM 2018.)

Data Statements for Natural Language Processing: Toward Mitigating System Bias and Enabling Better Science

Model Cards for Model Reporting. (FAT 2018.)

Datasets

CommonCrawl:

OpenWebText (Train GPT-2):

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data.

The Pile(Train GPT-J): An 800GB Dataset of Diverse Text for Language Modeling

Analysis of datasets:

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus.

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets.

Filtering datasets:

An Empirical Exploration in Quality Filtering of Text Data

Deduplicating Training Data Makes Language Models Better.

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
Happiness isn't about getting what you want all the time, it's about loving what you have.
幸福并不是一味得到自己想要的,而是珍爱自己拥有的