
自然语言处理
文章平均质量分 74
jieshenai
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MTEB:基于 Embedding 的文本分类评估与实战解析
介绍了如何使用 MTEB(Massive Text Embedding Benchmark)对文本嵌入模型进行文本分类任务评估,涵盖逻辑回归与KNN两种方法的实现与对比。通过使用BERT和bge-m3模型,展示了embedding质量对分类效果的影响。同时,详细debug了MTEB的评估流程,并提供了自定义数据集的接入方式,为后续微调embedding模型打下基础。原创 2025-06-19 18:49:05 · 903 阅读 · 0 评论 -
企业分类相似度筛选实战:基于规则与向量方法的对比分析
聚焦企业分类相似类别筛选,介绍`google_bleu`算法与向量的嵌入模型方法,探讨两种方法在文本相似度计算中的效果对比。规则方法依赖字符匹配,而向量方法利用深层语义理解,能精准筛选语义相近类别。原创 2025-01-18 17:39:19 · 1275 阅读 · 0 评论 -
深度学习二分类评估详细解析与代码实战
本文详细解析了深度学习二分类问题的分类评估方法,并提供了相应的代码实战。首先,介绍了真正例TP、假正例FP、假负例FN、真负例TN 的定义。随机生成了二分类的预测数据pred和真实标签label,并展示了如何使用PyTorch的计算的计算过程原创 2024-06-22 16:08:42 · 1725 阅读 · 0 评论 -
linux系统使用head和tail命令,快速切分json 格式的数据集
json格式的数据集,每一行都是一个单独数据单元。linux系统使用head和tail命令快速切分训练集和测试集原创 2024-03-12 10:39:25 · 838 阅读 · 0 评论 -
huggingface HF_HOME 更换缓存目录
默认情况下,下载数据集并缓存到 ~/.cache/huggingface/dataset.您可以通过设置HF_HOME环境变量来自定义缓存的文件夹。若配置完环境,重启电脑。到此默认缓存目录切换成功。原创 2022-11-16 16:57:45 · 9913 阅读 · 4 评论