一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算

BERT

5星 · 超过95%的资源需积分: 48 110 浏览量 2019-11-03 18:33:01 上传评论 16 收藏 2.97MB GZ 举报

共17个文件

py：9个

csv：3个

pdf：1个

标题中的“一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算”揭示了BERT模型在自然语言处理（NLP）领域的广泛应用。BERT，全称为Bidirectional Encoder Representations from Transformers，是由Google在2018年推出的一种预训练语言模型。它通过Transformer架构实现了对文本的深度理解，尤其在理解和生成上下文相关的语义表示方面表现出色。 1. **BERT模型介绍**： BERT模型的核心是Transformer，一种自注意力机制，能同时考虑句子中的所有词，从而捕捉到全局依赖关系。BERT分为多层，每一层都由自我注意力层和前馈神经网络组成，能捕获不同级别的语义信息。 2. **预训练与微调**： BERT首先在大规模无标注文本上进行预训练，通过两个任务：掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP），学习语言的一般规律。之后，在特定任务如文本分类、命名实体识别等上进行微调，以适应具体应用。 3. **生成句向量**：在BERT中，每个输入序列的每个位置都会得到一个向量表示，这就是所谓的“隐状态”或“上下文向量”。通过取序列最后一个位置的向量，可以得到整个句子的表征，用于后续的文本相似度计算或其他任务。 4. **文本分类**：对于文本分类任务，BERT通常会添加一个额外的分类层在顶部，将句向量输入该层进行分类。通过微调，BERT能学习到如何根据上下文理解句子的意义，从而进行准确的分类。 5. **文本相似度计算**：使用BERT生成的句向量，可以通过余弦相似度或欧氏距离等方法来计算两个文本之间的相似度。由于BERT能捕捉到语义信息，所以这种相似度计算能更好地反映文本的真实含义上的相似性。 6. **代码实现**：虽然BERT模型本身复杂，但通过库如`transformers`（Hugging Face开发），可以非常简洁地实现BERT的上述功能。例如，仅用一行代码就能完成句向量的生成和文本相似度计算。 7. **库和工具**： Python中的`transformers`库提供了对BERT模型的接口，使得开发者能够轻松加载预训练模型，进行微调，以及执行各种NLP任务。`terrifyzhao/bert-utils`可能是用户创建的一个定制工具或示例，用于简化BERT的使用。 8. **应用场景**： BERT模型广泛应用于问答系统、情感分析、信息检索、机器翻译等领域，因其强大的语义理解能力而备受青睐。总结来说，BERT模型通过其独特的预训练和微调策略，为自然语言处理提供了一种强大的工具。借助于Python库，我们可以方便地利用BERT进行句向量生成、文本分类和相似度计算，大大简化了NLP任务的实现过程。

资源推荐

资源详情

资源评论

收起资源包目录

283.bert-utils__terrifyzhao.tar.gz （17个子文件）

283.bert-utils__terrifyzhao

similarity.py 28KB

tokenization.py 11KB

extract_feature.py 14KB

data

train.csv 7.11MB

dev.csv 725KB

test.csv 728KB

LICENSE 11KB

__init__.py 631B

graph.py 5KB

args.py 776B

requirements.txt 112B

optimization.py 6KB

.gitignore 98B

bert_vec.py 2KB

README.md 2KB

modeling.py 38KB

The BQ Corpus.pdf 317KB

# bert-utils 本文基于Google开源的[BERT](https://github.com/google-research/bert)代码进行了进一步的简化，方便生成句向量与做文本分类 --- ***** New July 1st, 2019 ***** + 修改句向量`graph`文件的生成方式，提升句向量启动速度。不再每次以临时文件的方式生成，首次执行extract_feature.py时会创建`tmp/result/graph`，再次执行时直接读取该文件，如果`args.py`文件内容有修改，需要删除`tmp/result/graph`文件 + 修复同时启动两个进程生成句向量时代码报错的bug + 修改文本匹配数据集为QA_corpus，该份数据相比于蚂蚁金服的数据更有权威性 --- 1、下载BERT中文模型下载地址: https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip 2、把下载好的模型添加到当前目录下 3、句向量生成生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考`extract_feature.py`的`main`方法，注意参数必须是一个list。首次生成句向量时需要加载graph，并在output_dir路径下生成一个新的graph文件，因此速度比较慢，再次调用速度会很快 ``` from bert.extrac_feature import BertVector bv = BertVector() bv.encode(['今天天气不错']) ``` 4、文本分类文本分类需要做fine tune，首先把数据准备好存放在`data`目录下，训练集的名字必须为`train.csv`，验证集的名字必须为`dev.csv`，测试集的名字必须为`test.csv`，必须先调用`set_mode`方法，可参考`similarity.py`的`main`方法，训练： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.TRAIN) bs.train() ``` 验证： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.EVAL) bs.eval() ``` 测试： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.PREDICT) bs.test() ``` 5、DEMO中自带了QA_corpus数据集，这里给出[地址](http://icrc.hitsz.edu.cn/info/1037/1162.htm)，该份数据的生成方式请参阅附件中的论文`The BQ Corpus.pdf`

评论收藏

内容反馈