logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。数据集太小了,同时数据偏向某些任务。数据标注在一些情况下不标准,会误导模型。目标物体会在视频中移动,文本描述很难精确。在该文的观点,现有的标注的数据同样还存在的问题是,数据

文章图片
#论文阅读#目标跟踪#人工智能 +4
论文阅读: Multi-Agent Collaboration Mechanisms: A Survey of LLMs

现有的LLM在一些方面能力很强,但是存在内在限制如幻觉、自回归性质、scaling law。一个方法是将LLM引入MAS。MAS有很大的好处在于,可以分布式部署Agent,然后汇总所有Agent的结果,从而获得更好的结果。目前已有的研究过于浅显,主要在于:- 仅涉及表明上的协同。- 没有具体设计架构。- 协同过于单一,没有从通用的角度解决问题。我觉得这可能不是一篇很好的论文。在已经掌握了LLM-b

文章图片
#论文阅读#人工智能#语言模型 +2
论文阅读: Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Agent的相关技术是伴随着LLM技术的进步而发展的。由LLM推动的技术进步改变了原有的技术范式,很大程度上是由于LLM可以作为通用任务的处理器。这是一篇很棒的关于LLM-based Agent的综述。论文以方法论这个统一的视角,说明了Agent各个角度的细节。论文同时维护一个github的仓库,该仓库持续更新Agent相关的最新论文。论文的主要有用的内容是agent方法、评估的部分,现实问题偏社

文章图片
#论文阅读#语言模型#人工智能 +3
到底了