LLMs之BELLE:源码解读(merge_tokenizers.py文件)扩充词表—训练和合并两个不同的SentencePiece分词模型—使用SentencePiece库来训练一个名为belle的BPE分词器→加载两个现有的分词器模型→for循环对比去重的方式合并词汇表→保存合并后的新分词器模型
目录
# 1、使用SentencePiece库来训练一个名为belle的BPE分词器:词表大小为25000,覆盖率为99.95%。
# 2、加载两个现有的分词器模型文件orig_model和belle_model
# 3、for循环对比去重的方式合并词汇表:将belle_model中的词汇表融合到orig_model中
# 4、保存合并后的模型:将融合后的orig_model序列化并保存到文件中,作为新的分词器模型