Nomic Embed:高性能开源文本嵌入模型

Nomic Embed是由Nomic AI开发的文本嵌入模型,旨在提供高性能、可复现且完全开源的长文本嵌入解决方案。以下是其关键信息:

1. 开发团队

Nomic Embed由Nomic AI开发,这是一家专注于开源AI模型的公司,致力于提供透明、可审计的机器学习模型。该团队在2024年2月发布了nomic-embed-text-v1,并随后推出了增强版Nomic Embed v1.5

2. 模型能力

  • 上下文长度:支持8192 tokens,显著优于传统BERT类模型(通常仅支持512 tokens)。
  • 性能
    • MTEB(Massive Text Embedding Benchmark)LoCo Benchmark上,Nomic Embed超越了OpenAI的text-embedding-ada-002text-embedding-3-small
    • Jina Long Context Benchmark上表现稍逊于OpenAI的模型,但仍优于同类开源模型如jina-embeddings-v2-base-en
  • 参数规模:仅137M参数,相比7B参数的大模型更轻量,适合本地部署。
  • 训练数据:采用2.35亿精选文本对,涵盖多种领域(如网页检索、科学论文等),并通过一致性过滤提高数据质量。

3. 模型特点

  • 完全开源:包括模型权重、训练代码和数据集(Apache 2.0许可),支持复现和审计。
  • Matryoshka Representation Learning(MRL)(v1.5版本):
    • 允许动态调整嵌入维度(64-768),减少内存占用,同时保持性能。
  • 优化架构
    • 使用Rotary位置编码SwiGLU激活函数Flash Attention,提升计算效率。
    • 预训练采用30%掩码率(高于BERT的15%),增强模型鲁棒性。

4. 应用场景

  • 检索增强生成(RAG):适用于长文档检索和语义搜索。
  • 本地部署:可通过Ollama等工具在本地运行,性能超越OpenAI的API。
  • 企业级应用:提供Nomic Atlas API,支持免费试用(100万tokens)和企业套餐。

5. 当前排名

在开源嵌入模型中,Nomic Embed被认为是性能最佳的长上下文模型之一,尤其在MTEBLoCo Benchmark上表现突出。虽然Jina长上下文基准测试稍弱于OpenAI,但其开源透明性使其在学术界和工业界广受欢迎。

如需进一步了解,可访问其Hugging Face页面GitHub代码库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值