作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接点击论文链接或者直达ChatPaper页面:https://www.aminer.cn/chat/g/
2023年7月11日精选新论文列表:
1.CAME: Confidence-guided Adaptive Memory Efficient Optimization 论文详情页
链接:https://www.aminer.cn/pub/64a63bddd68f896efaec6604/?f=cs
ChatPaper综述:在训练大型语言模型时,自适应梯度方法需要维护每个参数梯度的二阶矩估计,从而增加了额外的内存开销。为了解决这个问题,提出了几种内存高效的优化器,但会导致性能损失。本文研究了一种自信度引导策略来降低现有内存高效优化器的不稳定性,并基于该策略提出了CAME,以同时实现传统自适应方法的快速收敛和内存高效方法的低内存使用。广泛的实验表明,CAME在BERT和GPT-2等各种NLP任务的训练中具有稳定的性能和卓越的性能。值得注意的是,对于大批量32,768的BERT预训练,我们提出的优化器比Adam优化器具有更快的收敛速度和更高的准确性。CAME的实现是公开可用的。所以摘要说明了在大型语言模型的训练中,自适应梯度方法需要更多的内存开销,而提出的CAME优化器可以同时实现快速收敛和低内存使用的目标。
2.Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest 论文详情页
链接:https://www.aminer.cn/pub/632297f390e50fcafdc87aa9/?f=cs
ChatPaper综述:研究人员使用《纽约客》的漫画比赛作为研究对象,开发了三个具体任务,要求模型理解图像与字幕之间的潜在复杂关系,以及对人类体验的复杂和出人意料的引用。研究人员调查了直接处理图像像素和字幕的视觉-语言模型,以及通过提供图像的文本描述来避免图像处理的语言模型。即使在提供了丰富的多方面注释的情况下,研究人员发现高质量的机器学习模型(例如,一个微调的,具有1750亿个参数的语言模型)与人类之间存在性能差距。他们还公开发布了包括描述图像位置/实体、场景的异常之处以及笑话解释的语料库。
3.What the DAAM: Interpreting Stable Diffusion Using Cross Attention 论文详情页
链接:https://www.aminer.cn/pub/6344dee690e50fcafd24e90b/?f=cs
ChatPaper综述:这篇论文解决了大规模扩散神经网络在文本到图像生成中缺乏解释性分析的问题。它通过对最近公开的模型“稳定扩散”进行文本-图像归因分析来产生像素级归因图。作者将这种方法称为DAAM,并评估了它在名词的语义分割能力以及所有词性的广义归因质量。然后,作者应用DAAM来研究语法在像素空间中的作用,通过表征十种常见依赖关系的头部-依赖热图交互模式。最后,作者使用DAAM来研究几种语义现象,重点关注特征交织,发现共同上位词会降低生成质量,而描述性形容词的关注范围过广。据作者所知,这是首次从视觉语言的角度解释大规模扩散模型,为未来的研究提供了新的方向。
4.From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models 论文详情页
链接:https://www.aminer.cn/pub/6462f133d68f896efa9118a5/?f=cs
ChatPaper综述:研究着眼于大型语言模型(LMs)的预训练数据,探讨其在社交导向任务中的公平性问题。研究发现,预训练的LMs存在政治倾向,这会加剧预训练语料库中的极化现象,并将社交偏见传播到仇恨言论预测和媒体偏见检测中。研究讨论了这些发现对自然语言处理(NLP)研究的影响,并提出了减少不公平性的未来方向。
5.Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b366f7/?f=cs
ChatPaper综述:论文提出了一个系统,用于将场景中的物体重新排列以实现所需的物体-场景放置关系。该系统可以推广到场景和物体的新几何形状、姿态和布局,并通过从示范中进行训练直接对3D点云进行操作。该系统克服了给定场景存在许多几何上相似的重新排列解决方案所带来的挑战。通过利用迭代姿态去噪训练过程,我们可以拟合多模态示范数据并生成多模态输出,同时保持精确和准确。我们还展示了在忽略对通用化和精确性都有害的无关全局结构的同时,以相关局部几何特征为条件的优势。我们在模拟和真实世界中展示了我们的方法在处理多模态和物体形状和姿态的推广上的三个不同的重新排列任务。
6.AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b366dd/?f=cs
ChatPaper综述:介绍了一种实用的框架,可以将现有的个性化文本转图模型动画化,避免了针对特定模型的调整工作。该框架的核心是在冻结的文本转图模型中插入一个新初始化的运动建模模块,并将其训练在视频剪辑上,以提取合理的运动先验知识。一旦训练完成,通过简单地注入这个运动建模模块,所有从相同基础T2I派生的个性化版本都可以成为以文本驱动的模型,产生多样化和个性化的动画图像。作者对几个公开代表性的个性化文本转图模型进行了评估,包括动漫图片和真实照片,并证明了他们的框架能够帮助这些模型生成时间上平滑的动画剪辑,同时保留了其输出的领域和多样性。
7.Semantic-SAM: Segment and Recognize Anything at Any Granularity 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b36707/?f=cs
ChatPaper综述:论文介绍了Semantic-SAM这一通用的图像分割模型,可以在任何所需的粒度上分割和识别任何物体。该模型具有两个关键优势:语义感知和粒度丰富性。为了实现语义感知,我们整合了三个粒度上的多个数据集,并引入了对象和部分的解耦分类。这使得我们的模型能够捕捉丰富的语义信息。对于多粒度能力,我们在训练过程中提出了一种多选择学习方案,使每次点击可以生成与多个标准掩膜相对应的多个级别的掩膜。值得注意的是,这项工作是首次尝试在SA-1B、通用和部分分割数据集上联合训练模型。实验结果和可视化展示表明,我们的模型成功实现了语义感知和粒度丰富性。此外,将SA-1B训练与其他分割任务(如全景和部分分割)结合起来可以提高性能。我们将提供代码和演示以进行进一步的探索和评估。
8.VampNet: Music Generation via Masked Acoustic Token Modeling 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b366b5/?f=cs
ChatPaper综述:论文介绍了VampNet,一种通过应用不同掩码方法进行推理的掩码声学标记建模方法在音乐合成、压缩、修复和变异等方面的应用。在训练过程中,使用可变的掩码计划,允许我们通过应用各种掩码方法(称为提示)在模型中采样连贯的音乐。VampNet是非自回归的,利用双向变压器架构,在前向传递中关注所有标记。只需36个采样传递,VampNet就能生成连贯的高保真音乐波形。我们展示了通过以各种方式提示VampNet,我们可以将其应用于音乐压缩、修复、扩展、延续和循环的多个任务中。适当的提示下,VampNet能够保持音乐的风格、类型、乐器和其他高层次的特征。这种灵活的提示功能使VampNet成为一个强大的音乐共创工具。代码和音频示例可以在网络上找到。
9.Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b36373/?f=cs
ChatPaper综述:说明了将预训练模型应用于从草图生成3D形状的挑战。由于草图与形状配对的数据集有限且草图的抽象程度各不相同,因此在过去很难有效地利用这些预训练模型来生成3D形状。然而,通过在训练过程中使用来自冻结的大型预训练视觉模型的特征(从合成渲染中获得),我们发现可以有效地从草图中生成3D形状。这表明大型预训练视觉模型的特征具有鲁棒的语义信号,能够在推理时将这些信号应用于仅使用RGB渲染的草图上。通过进行一系列的实验研究不同的设计因素,我们证明了我们简单的方法的有效性,无论输入草图的抽象程度如何,都可以生成多个3D形状,并且在训练过程中不需要任何配对数据集。
10.RLTF: Reinforcement Learning from Unit Test Feedback 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b3655e/?f=cs
ChatPaper综述:说明了在程序合成或代码生成中的一个问题,即当前使用强化学习方法的研究往往只使用离线框架,限制了对新样本空间的探索。此外,当前利用单元测试信号的方法较为简单,没有考虑代码中具体的错误位置。为了解决这些问题,作者提出了RLTF框架,即基于单元测试反馈的强化学习,这是一个在线强化学习框架,通过多粒度的单元测试反馈来优化代码生成。大量实验证明,RLTF在APPS和MBPP基准测试上取得了最先进的性能。
11.Large Language Models for Supply Chain Optimization 论文详情页
链接:https://www.aminer.cn/pub/64acd41c3fda6d7f06b36379/?f=cs
ChatPaper综述:说明了传统的供应链运营涉及多种复杂的决策问题,并且在过去几十年中,由于计算能力的提升,供应链得到了很大的好处,实现了从手工处理到自动化和成本效益优化的过渡。然而,业务运营商仍然需要付出大量努力来解释和解读优化结果给相关利益相关者。作者针对最近大型语言模型(LLMs)的进展,研究了这一颠覆性技术如何帮助弥合供应链自动化和人类理解与信任之间的差距。他们设计了一个名为\name{}的框架,该框架接受纯文本的查询作为输入,并输出关于底层优化结果的洞察。该框架不放弃最先进的组合优化技术,而是利用该技术定量地回答假设情境(例如,如果我们对给定需求使用供应商B而不是供应商A,成本将如何变化?)。重要的是,他们的设计不需要将专有数据发送给LLMs,这在某些情况下可能引起隐私问题。他们还在Microsoft的云供应链中的真实服务器放置方案上证明了他们框架的有效性。在此过程中,他们还开发了一个通用的评估基准,可用于评估LLMs在其他场景中输出的准确性。
12.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models 论文详情页
链接:https://www.aminer.cn/pub/64abee0f286e8b4b6fcd5c84/?f=cs
ChatPaper综述:论文指出了机器人操作中的一个主要瓶颈,即大多数模型仍依赖预定义的运动原语来进行与环境的物理交互。然而,通过观察到大型语言模型(LLMs)擅长于根据自由形式的语言指令推断能力和约束,可以利用其编码能力与视觉语言模型(VLM)相互作用,以组合三维值地图来将知识落实到代理的观察空间中。这些组合的值地图然后在基于模型的规划框架中使用,以零演示方式合成具有对动态扰动的鲁棒性的闭环机器人轨迹。作者进一步展示了该框架如何通过高效学习动力学模型来从在线经验中受益,特别是在涉及接触丰富交互的场景中。作者在模拟和真实机器人环境中进行了大规模的研究,展示了该方法能够执行超过30个以自由形式的自然语言指定的日常操作任务的能力。
如何使用ChatPaper?
使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。
如果您有任何问题或建议,欢迎随时联系我们。