在stanford-crfm/helm项目中添加自定义分词器指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00779/article/details/148889878

在stanford-crfm/helm项目中添加自定义分词器指南

理解分词器在HELM项目中的作用

在自然语言处理(NLP)领域，分词器(Tokenizer)是将原始文本转换为模型可处理token序列的关键组件。stanford-crfm/helm项目作为一个综合性语言模型评估框架，内置了多种分词器支持，但开发者有时需要为自定义模型添加特定的分词器。

添加自定义分词器的步骤

1. 创建分词器配置文件

首先需要在本地配置目录(如./prod_env/)下创建名为tokenizer_configs.yaml的文件。这个文件将包含YAML格式的TokenizerConfigs对象配置。

2. 配置文件结构详解

配置文件采用YAML格式，支持多种分词器类型。以下是主要配置项说明：

name: 分词器的唯一标识名称
tokenizer_spec: 分词器规格定义
- class_name: 分词器实现类的完整路径
- args: 分词器初始化参数
end_of_text_token: 文本结束标记
prefix_token: 文本前缀标记

添加Hugging Face分词器

Hugging Face是当前最流行的NLP库之一，HELM项目提供了对Hugging Face分词器的原生支持。

基础配置示例

tokenizer_configs:
  - name: bigscience/bloom
    tokenizer_spec:
      class_name: "helm.tokenizers.huggingface_tokenizer.HuggingFaceTokenizer"
      args:
        pretrained_model_name_or_path: bigscience/bloom
    end_of_text_token: "<s>"
    prefix_token: "</s>"

简化配置方式

如果省略pretrained_model_name_or_path参数，系统会默认使用name作为模型ID从Hugging Face Hub加载：

tokenizer_configs:
  - name: bigscience/bloom
    tokenizer_spec:
      class_name: "helm.tokenizers.huggingface_tokenizer.HuggingFaceTokenizer"
    end_of_text_token: "<s>"
    prefix_token: "</s>"

本地分词器支持

pretrained_model_name_or_path也可以设置为本地路径，加载本地的Hugging Face分词器。

确定特殊标记值

正确设置end_of_text_token和prefix_token对模型性能至关重要。可以通过以下Python代码获取这些值：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom")
print(f'end_of_text_token: "{tokenizer.eos_token}"\nprefix_token: "{tokenizer.bos_token}"')

如果某个特殊标记未知，应将其设置为空字符串""。