作者:禅与计算机程序设计艺术
1.简介
2017年8月,OpenAI 刚刚发布了一个开源项目 GPT-2 ,这是一个用 transformer 模型生成文本的 AI 语言模型。GPT-2 的训练数据集并不大,只有几十万篇文章、论文等纯文字材料,而这几十万篇文章的质量如何呢?OpenAI 在自己的博客上提供了一些分析结果:“我们在训练过程中对数据集进行了若干标准化和清理,但仍然存在许多噪声和低质量的数据。事实上,很少有纯文字材料能够提供足够的训练材料。”因此,如果想要构建一个可以处理长文本数据的 AI 模型,就需要面对更加实际的问题。这个时候,我们需要借助专业的机器学习、深度学习技术人员参与到这个开源项目中来,搭建起一个完整的 AI 系统。本篇文章将带领大家一起走进 GPT-2 源码的世界,探索其背后的技术细节。希望大家能够理解、掌握并应用这些技术,用 GPT-2 来解决日益增长的数字化时代下,数据量过于庞大的各种文本问题,帮助我们的互联网变得更加便捷、有效、科技精湛。
2.基本概念术语说明
数据集(Dataset)
数据集就是收集到的用于训练机器学习模型的数据,它应该是足够大且具有代表性的,这样才能充分反映出模型所需处理的所有情况。对于 GPT-2 的训练数据集,目前官方并没有明确的定义,但是一般来说,大规模训练数据集由具有不同主题的文本文档组成。
- Text Corpus: 通常包括大量的、较为标准化的、没有噪声的文本数据,如维基百科、古诗词典、历史书籍、新闻报道等。这些数据会被组织成为一系列文本文件,每个文