[**中文说明**](./README.md) | [**English**](./README_EN.md)
<p align="center">
<br>
<img src="./pics/banner.png" width="500"/>
<br>
</p>
<p align="center">
<a href="https://github.com/ymcui/Chinese-PreTrained-XLNet/blob/master/LICENSE">
<img alt="GitHub" src="https://img.shields.io/github/license/ymcui/Chinese-PreTrained-XLNet.svg?color=blue&style=flat-square">
</a>
</p>
本项目提供了面向中文的XLNet预训练模型,旨在丰富中文自然语言处理资源,提供多元化的中文预训练模型选择。
我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。
本项目基于CMU/谷歌官方的XLNet:https://github.com/zihangdai/xlnet
其他相关资源:
- 中文MacBERT预训练模型:https://github.com/ymcui/MacBERT
- 中文ELECTRA预训练模型:https://github.com/ymcui/Chinese-ELECTRA
- 中文BERT-wwm预训练模型:https://github.com/ymcui/Chinese-BERT-wwm
- 知识蒸馏工具TextBrewer:https://github.com/airaria/TextBrewer
查看更多哈工大讯飞联合实验室(HFL)发布的资源:https://github.com/ymcui/HFL-Anthology
## 新闻
**2021/1/27 所有模型已支持TensorFlow 2,请通过transformers库进行调用或下载。https://huggingface.co/hfl**
2020/9/15 我们的论文["Revisiting Pre-Trained Models for Chinese Natural Language Processing"](https://arxiv.org/abs/2004.13922)被[Findings of EMNLP](https://2020.emnlp.org)录用为长文。
2020/8/27 哈工大讯飞联合实验室在通用自然语言理解评测GLUE中荣登榜首,查看[GLUE榜单](https://gluebenchmark.com/leaderboard),[新闻](http://dwz.date/ckrD)。
2020/3/11 为了更好地了解需求,邀请您填写[调查问卷](https://wj.qq.com/s2/5637766/6281),以便为大家提供更好的资源。
2020/2/26 哈工大讯飞联合实验室发布[知识蒸馏工具TextBrewer](https://github.com/airaria/TextBrewer)
<details>
<summary>历史新闻</summary>
2019/12/19 本目录发布的模型已接入[Huggingface-Transformers](https://github.com/huggingface/transformers),查看[快速加载](#快速加载)
2019/9/5 `XLNet-base`已可下载,查看[模型下载](#模型下载)
2019/8/19 提供了在大规模通用语料(5.4B词数)上训练的中文`XLNet-mid`模型,查看[模型下载](#模型下载)
</details>
## 内容导引
| 章节 | 描述 |
|-|-|
| [模型下载](#模型下载) | 提供了中文预训练XLNet下载地址 |
| [基线系统效果](#基线系统效果) | 列举了部分基线系统效果 |
| [预训练细节](#预训练细节) | 预训练细节的相关描述 |
| [下游任务微调细节](#下游任务微调细节) | 下游任务微调细节的相关描述 |
| [FAQ](#faq) | 常见问题答疑 |
| [引用](#引用) | 本目录的技术报告 |
## 模型下载
* **`XLNet-mid`**:24-layer, 768-hidden, 12-heads, 209M parameters
* **`XLNet-base`**:12-layer, 768-hidden, 12-heads, 117M parameters
| 模型简称 | 语料 | Google下载 | 讯飞云下载 |
| :------- | :--------- | :---------: | :---------: |
| **`XLNet-mid, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **[TensorFlow](https://drive.google.com/open?id=1342uBc7ZmQwV6Hm6eUIN_OnBSz1LcvfA)** <br/>**[PyTorch](https://drive.google.com/open?id=1u-UmsJGy5wkXgbNK4w9uRnC0RxHLXhxy)** | **[TensorFlow(密码68En)](http://pan.iflytek.com:80/link/ED7DF7ED04B871AFE8E4D97704B9134D)** |
| **`XLNet-base, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **[TensorFlow](https://drive.google.com/open?id=1m9t-a4gKimbkP5rqGXXsEAEPhJSZ8tvx)** <br/>**[PyTorch](https://drive.google.com/open?id=1mPDgcMfpqAf2wk9Nl8OaMj654pYrWXaR)** | **[TensorFlow(密码uCpe)](http://pan.iflytek.com:80/link/32619C31BDEFAF2D82CB8C7F66F01D5C)** |
> [1] 通用数据包括:百科、新闻、问答等数据,总词数达5.4B,与我们发布的[BERT-wwm-ext](https://github.com/ymcui/Chinese-BERT-wwm)训练语料相同。
### PyTorch版本
如需PyTorch版本,
1)请自行通过[🤗Transformers](https://github.com/huggingface/transformers)提供的转换脚本进行转换。
2)或者通过huggingface官网直接下载PyTorch版权重:https://huggingface.co/hfl
方法:点击任意需要下载的model → 拉到最下方点击"List all files in model" → 在弹出的小框中下载bin和json文件。
### 使用说明
中国大陆境内建议使用讯飞云下载点,境外用户建议使用谷歌下载点,`XLNet-mid`模型文件大小约**800M**。 以TensorFlow版`XLNet-mid, Chinese`为例,下载完毕后对zip文件进行解压得到:
```
chinese_xlnet_mid_L-24_H-768_A-12.zip
|- xlnet_model.ckpt # 模型权重
|- xlnet_model.meta # 模型meta信息
|- xlnet_model.index # 模型index信息
|- xlnet_config.json # 模型参数
|- spiece.model # 词表
```
### 快速加载
依托于[Huggingface-Transformers 2.2.2](https://github.com/huggingface/transformers),可轻松调用以上模型。
```
tokenizer = AutoTokenizer.from_pretrained("MODEL_NAME")
model = AutoModel.from_pretrained("MODEL_NAME")
```
其中`MODEL_NAME`对应列表如下:
| 模型名 | MODEL_NAME |
| - | - |
| XLNet-mid | hfl/chinese-xlnet-mid |
| XLNet-base | hfl/chinese-xlnet-base |
## 基线系统效果
为了对比基线效果,我们在以下几个中文数据集上进行了测试。对比了中文BERT、BERT-wwm、BERT-wwm-ext以及XLNet-base、XLNet-mid。
其中中文BERT、BERT-wwm、BERT-wwm-ext结果取自[中文BERT-wwm项目](https://github.com/ymcui/Chinese-BERT-wwm)。
时间及精力有限,并未能覆盖更多类别的任务,请大家自行尝试。
**注意:为了保证结果的可靠性,对于同一模型,我们运行10遍(不同随机种子),汇报模型性能的最大值和平均值。不出意外,你运行的结果应该很大概率落在这个区间内。**
**评测指标中,括号内表示平均值,括号外表示最大值。**
### 简体中文阅读理解:CMRC 2018
**[CMRC 2018数据集](https://github.com/ymcui/cmrc2018)**是哈工大讯飞联合实验室发布的中文机器阅读理解数据。
根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
评测指标为:EM / F1
| 模型 | 开发集 | 测试集 | 挑战集 |
| :------- | :---------: | :---------: | :---------: |
| BERT | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| BERT-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| BERT-wwm-ext | **67.1** (65.6) / 85.7 (85.0) | **71.4 (70.0)** / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| **XLNet-base** | 65.2 (63.0) / 86.9 (85.9) | 67.0 (65.8) / 87.2 (86.8) | 25.0 (22.7) / 51.3 (49.5) |
| **XLNet-mid** | 66.8 **(66.3) / 88.4 (88.1)** | 69.3 (68.5) / **89.2 (88.8)** | **29.1 (27.1) / 55.8 (54.9)** |
### 繁体中文阅读理解:DRCD
**[DRCD数据集](https://github.com/DRCKnowledgeTeam/DRCD)**由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
评测指标为:EM / F1
| 模型 | 开发集 | 测试集 |
| :------- | :---------: | :---------: |
| BERT | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| BERT-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| BERT-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| **XLNet-base** | 83.8 (83.2) / 92.3 (92.0) | 83.5 (82.8) / 92.2 (91.8) |
| **XLNet-mid** | **85.3 (84.9) / 93.5 (93.3)** | **85.5 (84.8) / 93.6 (93.2)** |
### 情感分类:ChnSentiCorp
在情感分类任务中,我们使用的是ChnSentiCorp数据集。模型需要将文本分成`积极`, `消极`两个类别。
评测指标为:Accuracy
| 模型 | 开发集 | 测试集 |
| :------- | :---------: | :---------: |
| BERT | 94.7 (94.3) | 95.0 (94.7) |
| BERT-wwm | 95.1 (94.5) | **95.4 (95.0)** |
| **XLNet-base** | | |
| **XLNet-mi
没有合适的资源?快使用搜索试试~ 我知道了~
中文-XLNet:预训练中文XLNet(中文XLNet预训练模型)

共22个文件
py:15个
md:2个
png:1个

需积分: 50 20 下载量 102 浏览量
2021-02-03
15:14:33
上传
评论 5
收藏 227KB ZIP 举报
温馨提示
| 本项目提供了针对中文的XLNet预训练模型,扩展了丰富的自然语言处理资源,提供多种中文预训练模型选择。我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。 本项目基于CMU /谷歌官方的XLNet: : 其他相关资源: MacBERT预训练模型: : 中文ELECTRA预训练模型: : 中文BERT-wwm预训练模型: : 知识蒸馏工具TextBrewer: : 查看更多哈工大讯飞联合实验室(HFL)发布的资源: : 新闻 2021年1月27日所有模型已支持TensorFlow 2,请通过变压器库进行调用或下载。 2020/9/15我们的论文被录用为长文。 2020/8/27哈工大讯飞联合实验室在通用自然语言理解评论GLUE中荣登榜首,查看,。 2020/3/11为了更好地了解需求,邀请您填写,刹车为大家提供更好的资源。 2020/2/26哈工大讯飞联合实验室发布 历史新闻2019/12/19本目录发布的模型已接受[Huggingface-Transformers]( ) 2019/9/5 XLNet-base已可下载,查看 2019/8/1
资源详情
资源评论
资源推荐
收起资源包目录



























共 22 条
- 1













格式:zip 资源大小:412.7MB

格式:zip 资源大小:22.4MB

















Mika.w
- 粉丝: 43
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 计算机通信与网络远程控制技术应用分析.docx
- 计算机辅助教学在高校教育的现状和对策研究.docx
- C语言课程设计语言代码简易计算器设计[].doc
- 单片机智能温室控制系统设计方案.doc
- 南京邮电大学网络工程专业.doc
- 利用物联网技术推动徐州健康服务业发展研究.doc
- 单片机的模糊温控制器的设计.doc
- 北京邮电移动通信第三版第一章概述概要.ppt
- AutoCAD工程师二季认证考试题库.doc
- 大学软件工程基础知识测试题.doc
- 互联网+背景下农村小微规模学校美术教学策略探索.docx
- 软件开发项目管理说明.docx
- 《电气控制与PLC技术》电子教案[精].doc
- 云桌面虚拟化解决实施方案(数字图书馆办公).doc
- 信息系统项目管理师辅导.ppt
- 2011年9月计算机二级考试Access真题及答案.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0