从0到1学习大语言模型课程——4. LLM大语言模型背后的数据-JieYingAI捷鹰AI

本节讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据。

通常在机器学习中，训练数据和测试（评估）数据是相似的或至少是相同的类型。对大型语言模型来说，训练数据只是“原始文本”。

一、大语言模型背后的数据

LLM是根据“原始文本”进行训练的。为了具备语言和世界知识，本文应涵盖广泛的领域、语言等...

网络是广泛数据的来源之一，Google 搜索索引为 100 PB（参考）。实际的网络可能更大，而深网甚至更大。

深网（Deep Web）是指不能被标准搜索引擎索引的万维网内容。与深网相反的术语是表网，任何人都可以使用互联网访问。深网可以直接通过的URL或IP地址访问，但可能需要输入密码或其他安全信息才能访问实际内容。如网络邮件、网络银行等。

Common Crawl是一个非营利组织，负责抓取网络并向公众免费提供。它已成为训练 T5、GPT-3 和 Gopher 等许多模型的标准数据源。Common Crawl 2021 年 4 月的Snap有 320 TB 的数据，比 Google 索引小几个数量级。

二、一些数据现象

尽管规模很大，但大规模数据在总体中的代表性仍然不均匀。

互联网数据中来自发达国家的年轻用户比例较高。

GPT-2的训练数据基于Reddit，2016年的调查，美国67%的Reddit用户是男性，其中64%年龄在18岁到29岁之间。

8-15% 的维基百科用户是女性。

互联网上的骚扰会让某些人（跨性别者、神经分歧者）望而却步。

过滤“脏话”可能会进一步边缘化某些人群（例如 LGBT+）。

三、WebText

WebText 数据集用于训练 GPT-2。

3.1 目标：获得多样化但高质量的数据集。

3.2 数据集：

根据新闻、维基百科或小说进行训练。

Common Crawl，Trinh & Le，2018 年根据与目标任务的 n 元语法重叠选择了 Common Crawl 的一个小子集。

link

3.3 创建WebText：

抓取所有至少获得 3 karma（赞成票）的出站链接。karma，常指的是在社交媒体或在线社区中的积分或评级系统中的一种形式

过滤掉维基百科，以便能够对基于维基百科的基准进行评估。

最终结果是 40 GB 的文本。

3.4 OpenWebText：

link:

WebText 不是由 OpenAI 发布的，但它集合进OpenWebText。

从Reddit 中提取了所有 URL 。

link:

使用 Facebook 的fastText过滤掉非英语。

删除了重复项。

结果是 38 GB 的文本。

3.5 毒性分析。

Gehman et al. 2020RealToxicityPrompts论文，分析了如上两个数据集发现：

link:

2.1% 的 OpenWebText 毒性分数 >= 50%

4.3% 的 WebText（来自 OpenAI）的毒性分数 >= 50%

新闻可靠性与毒性呈负相关

3% 的 OpenWebText 来自禁止或隔离的 subreddits，

四、Colossal Clean Crawled Corpus ( C4 )

一个更大的语料库，是为了训练 T5 模型而创建的。

从 2019 年 4 月 Common Crawl Snap 开始（1.4 万亿tokens）

删除了“bad words”

删除的代码块

过滤掉非英语文本

生成 806 GB 文本（1560 亿个令牌）

来自 Patents.google.com 的数据量惊人

patents.google.com 是一个由 Google 提供的在线专利搜索平台。该网站提供了一个便捷的方式来搜索、浏览和阅读各种专利文件。

在互联网档案馆中 65% 的页面中；92% 的页面是在过去十年中编写的

51.3% 的页面托管在美国；很少在印度，尽管印度有很多说英语的人。

Patents.google.com 中的一些文本是自动创建的，因此存在系统错误：

五、GPT-3数据集

Common Crawl 的子集，类似于WebText

执行模糊重复数据删除（13-gram重叠）

数据源的多样性（WebText2、Books1、Books2、Wikipedia）。

在训练过程中，Common Crawl 被下采样（Common Crawl 占数据集的 82%，但只贡献了 60%）。

六、Pile

link:

其关键思想是从较小的高质量资源(学术+专业资源)中获取数据。

825 GB English text

22 high-quality datasets

七、Summary

网络数据量巨大。

数据处理很重要，对“所有内容”（甚至是 Common Crawl）的训练效果不佳（无法有效利用计算）。

需要过滤/管理（OpenWebText、C4、GPT-3 数据集），但也可能会导致偏差。

管理非网络高质量数据集是有前途的（The Pile）。

仔细记录、检查、管理数据集很重要。

八、Further Reading

Documentation for datasets

Datasheets for datasets.(Communications of the ACM 2018.)

Data Statements for Natural Language Processing: Toward Mitigating System Bias and Enabling Better Science

Model Cards for Model Reporting. (FAT 2018.)

Datasets

CommonCrawl:

OpenWebText (Train GPT-2):

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data.

The Pile(Train GPT-J): An 800GB Dataset of Diverse Text for Language Modeling

Analysis of datasets:

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus.

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets.

Filtering datasets:

An Empirical Exploration in Quality Filtering of Text Data

Deduplicating Training Data Makes Language Models Better.

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END