【小语言模型】
[2024] Small Language Models: Survey, Measurements, and Insights
论文链接:https://arxiv.org/pdf/2409.15790v1
代码链接:https://github.com/UbiquitousLearning/SLM_Survey
尽管小型语言模型(SLMs)在现代智能设备中得到了广泛应用,但与主要用于数据中心和云环境的大型语言模型(LLMs)相比,它们在学术界受到的关注明显较少。虽然研究人员继续改进LLM的能力以追求通用人工智能,SLM研究的目标是使机器智能更易于访问、更经济实惠且更高效地用于日常任务。文中专注于基于Transformer的仅解码器语言模型,参数范围为1亿到50亿,调查了59个最先进的开源SLM,分析了它们在三个轴向的技术创新:架构、训练数据集和训练算法。此外,还评估了它们在各个领域的能力,包括常识推理、情境学习、数学和编程。为了进一步了解它们的设备运行时成本,对它们的推理延迟和内存占用进行了基准测试。通过对基准数据的深入分析,作者提供了有价值的见解,以推进该领域的研究。
【目标检测】
[ECCV 2024] Plain-Det: A Plain Multi-D