本文是LLM系列文章,针对《LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction》的翻译。
摘要
产品属性值提取是自然语言处理(NLP)和当代电子商务行业的关键组成部分。提供精确的产品属性值是确保高质量推荐和提高客户满意度的基础。最近出现的大型语言模型(LLM)在许多属性提取任务中表现出了最先进的性能,而不需要特定领域的训练数据。然而,由于数据、架构和超参数的多样性,不同的LLM表现出不同的优势和劣势。这种变化使它们相互补充,没有单一的LLM支配所有其他LLM。考虑到LLM的不同优势和劣势,有必要开发一种利用其互补潜力的集成方法。在本文中,我们提出了一种称为LLM集成的新算法来集成不同LLM的输出,用于属性值提取。我们迭代地学习不同LLM的权重,以将标签与权重聚合,从而预测最终的属性值。我们提出的方法不仅可以在理论上证明是最优的,而且可以确保高效的计算、快速的收敛和安全的部署。我们还在沃尔玛的内部数据上对各种最先进的LLM进行了广泛的实验,包括Llama2-13B、Llama2-70B、PaLM-2、GPT-3.5和GPT-4。我们的离线指标表明,LLM集成方法优于沃尔玛内部数据集上所有最先进的单个LLM。这种方法已在几种生产模式中推出,从而提高了商品总量&#