Bert实现意图分类

最新推荐文章于 2025-07-03 08:00:00 发布

时光正好466

最新推荐文章于 2025-07-03 08:00:00 发布

阅读量2.9k

点赞数 2

CC 4.0 BY-SA版权

文章标签： bert pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_62791428/article/details/128058050

来自保姆级教程，用PyTorch和BERT进行文本分类

一、bert

bert模型的下载：去抱抱脸网站bert-base-cased at main下载预训练模型，下载对应的这三个文件，这里下载的是pytorch版本

下载后放入对应文件夹，是这样的：

验证bert能不能调用成功：

from transformers import BertModel,BertTokenizer
BERT_PATH = './bert-base-cased'
tokenizer = BertTokenizer.from_pretrained(BERT_PATH)
print(tokenizer.tokenize('I have a good time, thank you.'))
bert = BertModel.from_pretrained(BERT_PATH)
print('load bert model over')

['I', 'have', 'a', 'good', 'time',
',', 'thank', 'you', '.'] 
load bert model over

BertTokenizer解析：BertTokenizer将数据处理成bert需要的格式

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
example_text = 'I will watch Memento tonight'
bert_input = tokenizer(example_text,padding='max_length', 
                       max_length = 10, 
                       truncation=True,
                       return_tensors="pt")
# ------- bert_input ------
print(bert_input['input_ids'])
print(bert_input['token_type_ids'])
print(bert_input['attention_mask'])

tensor([[  101,   146,  1209,  2824,  2508,
         26173,  3568,   102,     0,     0]])
tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]])

BertTokenizer参数：

padding：将每个sequence填充到指定的最大长度。
max_length: 每个sequence的最大长度。本示例中我们使用 10，但对于本文实际数据集，我们将使用 512，这是 BERT 允许的sequence 的最大长度。
truncation：如果为True，则每个序列中超过最大长度的标记将被截断。
return_tensors：将返回的张量类型。由于我们使用的是