Nomic Embed是由Nomic AI开发的文本嵌入模型,旨在提供高性能、可复现且完全开源的长文本嵌入解决方案。以下是其关键信息:
1. 开发团队
Nomic Embed由Nomic AI开发,这是一家专注于开源AI模型的公司,致力于提供透明、可审计的机器学习模型。该团队在2024年2月发布了nomic-embed-text-v1
,并随后推出了增强版Nomic Embed v1.5
。
2. 模型能力
- 上下文长度:支持8192 tokens,显著优于传统BERT类模型(通常仅支持512 tokens)。
- 性能:
- 在MTEB(Massive Text Embedding Benchmark)和LoCo Benchmark上,Nomic Embed超越了OpenAI的
text-embedding-ada-002
和text-embedding-3-small
。 - 在Jina Long Context Benchmark上表现稍逊于OpenAI的模型,但仍优于同类开源模型如
jina-embeddings-v2-base-en
。
- 在MTEB(Massive Text Embedding Benchmark)和LoCo Benchmark上,Nomic Embed超越了OpenAI的
- 参数规模:仅137M参数,相比7B参数的大模型更轻量,适合本地部署。
- 训练数据:采用2.35亿精选文本对,涵盖多种领域(如网页检索、科学论文等),并通过一致性过滤提高数据质量。
3. 模型特点
- 完全开源:包括模型权重、训练代码和数据集(Apache 2.0许可),支持复现和审计。
- Matryoshka Representation Learning(MRL)(v1.5版本):
- 允许动态调整嵌入维度(64-768),减少内存占用,同时保持性能。
- 优化架构:
- 使用Rotary位置编码、SwiGLU激活函数和Flash Attention,提升计算效率。
- 预训练采用30%掩码率(高于BERT的15%),增强模型鲁棒性。
4. 应用场景
- 检索增强生成(RAG):适用于长文档检索和语义搜索。
- 本地部署:可通过
Ollama
等工具在本地运行,性能超越OpenAI的API。 - 企业级应用:提供Nomic Atlas API,支持免费试用(100万tokens)和企业套餐。
5. 当前排名
在开源嵌入模型中,Nomic Embed被认为是性能最佳的长上下文模型之一,尤其在MTEB和LoCo Benchmark上表现突出。虽然Jina长上下文基准测试稍弱于OpenAI,但其开源透明性使其在学术界和工业界广受欢迎。
如需进一步了解,可访问其Hugging Face页面或GitHub代码库。