LLM应用领域概览(151-180)
这些研究展示了LLMs在城市设计、人类行为分析、机器人任务规划、开源开发、视觉任务、网络安全、自动驾驶、法律与政策、系统优化以及应用工具开发中的广泛应用。LLMs在不同场景中的应用不断展现出创新能力和适应性,推动了科技的进步与社会问题的解决。
1. 城市设计与公众情绪分析
- 包容性城市设计 (Paper151): 通过众包在线评论分析公众对城市设计的可达性情感态度,强调了社会经济因素对情绪的影响。
2. 面部表情与人类行为分析
- 面部动作单元识别 (Paper152): AU-LLaVA通过结合视觉编码和文本描述,显著提高面部动作单元识别的准确性。
- 对话模拟 (Paper159): 分析LLMs模拟对话与人类实际对话之间的匹配程度,发现存在风格和内容偏差。
3. 机器人与动作规划
- 机器人动作选择 (Paper154): 利用LLMs结合状态转移图,快速适应机器人任务中的阻塞条件。
- 双足机器人任务执行 (Paper123): 利用LLMs指导双足机器人完成任务,减少人类干预。
4. 创新与开源开发
- 开源创新影响 (Paper156): 探讨生成式AI对开源开发的影响,发现AI对维护任务的提升大于对原始创新的影响。
- 市场行为模拟 (Paper157): 通过LLMs进行市场行为实验,指出LLMs在捕捉市场动态方面的挑战。
5. 多模态与视觉任务
- 视觉抽象概念理解 (Paper166): DSG框架通过显式结构化表示提高视觉语言模型对抽象概念的理解。
- 文本与图像对齐 (Paper162): 通过动态提示增强Diffusion模型在Panoptic narrative grounding任务上的性能。
- 实体匹配任务 (Paper167): 微调LLMs用于实体匹配任务,显著提升小模型性能。
6. 网络与信息安全
- 反欺骗系统语言不匹配 (Paper158): ACCENT方法通过引入多样化语言知识提高单语训练模型的跨语言反欺骗能力。
- 蜜罐系统增强 (Paper165): 利用LLMs创建互动蜜罐系统,增强网络安全防御能力。
- LLM安全性研究 (Paper173): 综述LLM的安全性挑战,包括偏见、误导信息及防御策略。
7. 自动驾驶与交通场景
- 事故场景生成 (Paper174): SoVAR工具自动生成多种道路环境的测试场景,用于评估自动驾驶系统的安全性。
8. 法律与政策应用
- 总统辩论评估 (Paper169): LLM-POTUS评分通过分析政策、个人形象和观点,评估总统辩论的表现。
- 英国就业法庭案件预测 (Paper172): CLC-UKET数据集用于预测就业法庭案件结果,为争议解决提供基准。
- 法律建议接受度 (Paper178): 研究普通民众对LLM生成的法律建议的接受程度,探讨LLM与律师文本的差异。
9. 系统优化与新方法
- 股票价格预测 (Paper160): StockTime通过整合文本和时间序列数据提高股票价格预测的准确性。
- Speech-LLaMA推理加速 (Paper168): 通过多令牌预测加速Speech-LLaMA模型推理,降低解码器调用次数。
- 跨领域流量分析 (Paper170): 提出基于图的网络流量分析方法,提升网络流量动态捕捉能力。
10. 应用与新工具开发
- 旅行规划助手 (Paper175): TravelAgent通过工具使用和规划模块提供个性化旅行行程。
- 自动化UI测试 (Paper180): CAT框架结合LLMs和机器学习技术创建高效的UI自动化测试,检测出141个bug。
Paper151 Toward satisfactory public accessibility: A crowdsourcing approach through online reviews to inclusive urban design
摘要小结: 该研究通过使用Google Maps的美国各地评论,并采用低秩适应技术微调Llama 3模型来分析公众对可达性的情感态度,发现大多数地点类别如餐馆、零售、酒店和医疗保健均显示出负面情绪,且发现白人居民比例较高、社会经济地位较高的区域对可达性的态度更为积极,而老年和高学历居民较多的区域则表现出更消极的情绪,有趣的是,未发现残障人士的存在与公众情绪有明确关联,研究强调了众包在识别可达性挑战并为城市规划者提供洞见方面的潜力。
Paper152 Towards Unified Facial Action Unit Recognition Framework by Large Language Models
摘要小结: 本文提出了AU-LLaVA,这是首个基于大型语言模型(LLM)的统一面部动作单元(AU)识别框架,包括视觉编码器、线性投影层和预训练的LLM,通过精心设计的文本描述和在多个AU数据集上的微调,模型能够在不同的AU识别结果格式之间生成相同的输入图像,并在BP4D和DISFA数据集上为近一半的AUs提供了最准确的识别结果,相较于之前的结果,特定AU识别的F1分数提高了最多11.4%,在FEAFA数据集上的所有24个AUs上也实现了显著改进,显示出在AU识别方面的卓越性能和多样性。
Paper153 When Context Leads but Parametric Memory Follows in Large Language Models
摘要小结: 该研究主要探讨了九个广泛使用的大型语言模型(LLMs)在回答开放性问题时如何在局部上下文和全局参数之间分配知识,通过引入一个新的数据集WikiAtomic并系统地变化上下文大小,分析了LLMs在知识一致性场景下如何优先使用和利用提供的信息及其参数知识,同时还研究了它们在不同上下文大小下的幻觉倾向,发现模型一致依赖上下文(约70%)和参数知识(约30%),且随着上下文增加,幻觉现象减少。这些发现强调了更有效的上下文组织和对输入更确定性使用的重要性。
Paper154 Sequential Discrete Action Selection via Blocking Conditions and Resolutions
摘要小结: 本工作提出了一种策略,将机器人顺序动作选择问题视为解决“阻塞条件”,即阻碍达成目标过程中行动的情况,通过结合状态转移图和零样本大型语言模型(LLM),使机器人能够根据上下文信息快速适应并选择下一步行动,该方法通过迭代选择和执行动作来不断优化状态转移图,直至达成目标或遇到终止条件,并通过仿真实验与多种LLM和传统任务规划方法进行比较,验证了其有效性。
Paper155 Knowledge Tagging with Large Language Model based Multi-Agent System
摘要小结: 本文主要探讨了利用基于大型语言模型(LLM)的多智能体系统来自动化问题知识标注的过程,特别是在处理复杂知识定义和严格数值约束方面,解决了先前算法的局限性,并通过在MathKnowCT数据集上的优异表现,展示了其在教育应用中的潜力。
Paper156 The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot
摘要小结: 本研究探讨了生成式AI(GenAI)在协作工作环境中的影响,特别是通过分析GitHub Copilot的推出对开源开发的影响,发现GenAI能有效增强无指导协作创新,且对迭代任务(如维护)的提升大于原始创新任务(如代码开发),这可能导致随着AI模型改进,原始与创新任务之间的差距加大。
Paper157 An Experimental Study of Competitive Market Behavior Through LLMs
摘要小结: 本研究通过探索大型语言模型(LLMs)进行市场实验的潜力,旨在了解它们理解竞争市场动态的能力,发现当前LLMs在复制人类交易行为的动态决策过程上存在挑战,未能达到市场均衡,指出LLMs虽是市场模拟的有用工具,但需进一步发展以捕捉市场行为的复杂性,未来工作应增强其动态学习能力并融入行为经济学元素。
Paper158 Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing
摘要小结: 该研究首先揭示了语言不匹配对语音反欺骗系统的影响,并评估了在英语数据上训练的顶级语音反欺骗系统在其它语言上的性能下降;随后提出了一种名为ACCENT的创新方法,通过引入多样化的语言知识来增强单语训练模型的跨语言能力,并在包含超过300万样本的大型数据集上验证了其有效性,实现了15%以上的性能提升,显示出该方法在多语言和资源匮乏语言场景中的潜力。
Paper159 Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue
摘要小结: 本研究通过生成一个大规模的数据集,包含10万个LLM-LLM和人类-LLM对话对,并量化LLM模拟对话与人类对话的匹配程度,发现LLM模拟对话与人类实际对话存在较大差异,尤其在文本风格和内容上有系统性偏差,同时发现不同语言模型表现相似,指出LLM在人类写作风格与其相似时表现更佳。
Paper160 StockTime: A Time Series Specialized Large Language Model Architecture for Stock Price Prediction
摘要小结: 本文提出了StockTime,这是一种新颖的基于大型语言模型(LLM)的架构,专门针对股票价格时间序列数据进行设计,通过将股票价格视为连续令牌并提取文本信息,有效整合文本和时间序列数据,以预测股票价格,实验表明其性能优于近期LLMs,提高了预测准确性并降低了内存和运行成本。
Paper161 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
摘要小结: 该研究介绍了Windows Agent Arena,这是一个专注于Windows操作系统的可复现通用环境,允许代理在真实的Windows OS中自由操作,以解决任务。研究创建了150多个多样化的Windows任务,并提出了新的多模态代理Navi,在Windows域中取得了19.5%的成功率,对比人类的74.5%。该基准可扩展,并在Azure上实现快速评估。主要工作是提供了一个新的评估平台和代理,以推动多模态任务中的代理性能评估和研究。
Paper162 Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding
摘要小结: 本文提出了一个新的框架,称为Extractive-Injective Phrase Adapter (EIPA)并结合Multi-Level Mutual Aggregation (MLMA)模块,用于Panoptic narrative grounding任务,通过动态更新文本提示并充分利用图像特征,提高了Diffusion模型在细粒度图像文本对齐方面的性能,并在PNG基准上达到了最新的技术水平。
Paper163 OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering
摘要小结: 该研究首先通过一个月的日记研究收集了真实用户查询,并生成了与捕获记忆集成的必要上下文信息的分类法;然后介绍了OmniQuery系统,它能够通过整合多个互联记忆中分散的上下文信息来增强单个捕获的记忆,检索相关记忆,并使用大型语言模型生成全面回答复杂个人记忆相关问题;最终实验结果表明,OmniQuery的准确率为71.5%,在74.5%的情况下优于传统的RAG系统。
Paper164 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
摘要小结: 本文提出了Source2Synth方法,无需昂贵的人工标注即可用于教授大型语言模型(LLM)新技能,该方法通过输入自定义数据源生成带有中间推理步骤的合成数据点,并通过丢弃低质量生成来提高数据集质量,在多跳问答和表格问答两个挑战性领域展示了该方法的有效性,分别在HotPotQA和WikiSQL上提升了22.57%和25.51%的性能。
Paper165 LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems
摘要小结: 本文提出了一种利用大型语言模型(LLMs)创建真实互动的蜜罐系统的新方法,通过微调预训练的开源语言模型以响应攻击者命令,有效提高了蜜罐与攻击者的交互能力,评估显示该方法能生成准确且信息丰富的响应,展示了LLMs革新蜜罐技术的潜力,增强了网络安全基础设施。
Paper166 What Makes a Maze Look Like a Maze?
摘要小结: 本文提出了Deep Schema Grounding(DSG)框架,通过利用显式的结构化表示来理解和推理视觉抽象概念,核心是利用schemas将抽象概念分解为更原始的符号,并在新构建的Visual Abstractions Dataset上进行评估,显著提高了视觉-语言模型对抽象视觉推理的性能,朝着与人类一致的理解视觉抽象概念迈出了一步。
Paper167 Fine-tuning Large Language Models for Entity Matching
摘要小结: 该研究探讨了通过微调大型语言模型(LLMs)在实体匹配任务中的潜力,通过训练示例的表示和选择生成两个维度进行实验,发现微调能显著提升较小模型的性能,对跨领域转移有负面影响,而加入结构化解释能提升部分LLMs的表现。
Paper168 Faster Speech-LLaMA Inference with Multi-token Prediction
摘要小结: 本文提出了一种加速Speech-LLaMA模型推理的方法,通过在单个解码步骤中预测多个令牌,探索了多种模型架构,并采用阈值和验证推理策略来调查性能,同时提出了一种基于前缀的束搜索解码方法,以实现高效的最低单词错误率训练,最终在保持或提高WER性能的同时,将解码器调用次数减少了约3.2倍。
Paper169 LLM-POTUS Score: A Framework of Analyzing Presidential Debates with Large Language Models
摘要小结: 该研究提出了一种新颖的方法,利用大型语言模型(LLM)来评估总统辩论表现,通过分析候选人的“政策、个人形象和观点”(3P)与四个关键受众群体“利益、意识形态和身份”(3I)的共鸣程度,创建了LLM-POTUS分数这一量化辩论表现的指标,并将此框架应用于近期的美国总统辩论转录文本,提供了对候选人表现的多维度评估,揭示了不同辩论策略的有效性及其对各类受众的影响,不仅为政治分析提供了新工具,也探讨了在复杂社会环境中使用LLM作为公正评判者的潜力和局限性。
Paper170 Towards a graph-based foundation model for network traffic analysis
摘要小结: 该研究提出了一种新的基于图的计算机网络流量分析方法,使用动态时空图表示网络流量,并通过自监督的链接预测预训练任务捕捉网络图框架中的时空动态,相较于之前使用的大型语言模型,该方法在流量层面上更高效。通过三项下游网络任务的少量学习实验,该方法预训练的模型相较于从头开始训练平均性能提升6.87%,表明其在预训练期间能有效学习通用网络流量动态,具有成为大规模操作基础模型的潜力。
Paper171 WhisperNER: Unified Open Named Entity and Speech Recognition
摘要小结: 本文提出了WhisperNER,这是一种新颖的模型,可以同时进行语音转录和实体识别,支持开放类型的NER,并在训练中使用了增强的大型合成数据集,模型在评估中表现出色,超过了自然基线,在域外开放类型NER和监督微调方面都有提升。
Paper172 The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal
摘要小结: 这篇论文通过开发一个用于预测英国就业法庭(UKET)案件结果的基准,探索了技术创新与司法准入的交叉点;利用大型语言模型(LLM)进行自动注释,创建了包含约19,000个UKET案件和元数据的CLC-UKET数据集,并研究了多类案件结果预测任务,发现微调的变压器模型在此任务上优于零样本和少样本LLM,并提出了数据集可作为就业相关争议解决的宝贵基准。
Paper173 Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks
摘要小结: 该文章全面回顾了近期关于大型语言模型(LLM)安全性的研究文献,主要聚焦于LLM的准确性、偏见、内容检测和对攻击的脆弱性,讨论了LLM输出不准确或误导信息的问题,并重点介绍了事实核查方法以提升回应的可靠性,同时批判性地检查了LLM内固有的偏见,并通过多种评估技术提出了减轻偏见的策略,还探讨了区分LLM生成内容与人类生成文本的复杂性,介绍了检测机制和防御策略,最后强调了需要对LLM安全性进行更广泛研究的重要性。
Paper174 SoVAR: Building Generalizable Scenarios from Accident Reports for Autonomous Driving Testing
摘要小结: 该研究设计并实现了SoVAR工具,该工具能够从交通事故报告中自动生成适用于多种道路环境的测试场景,用于评估工业级自动驾驶系统ADS的安全性,实验表明SoVAR能有效生成广泛的交通事故场景,并识别出导致百度Apollo系统崩溃的5种不同的安全违规类型。
Paper175 TravelAgent: An AI Assistant for Personalized Travel Planning
摘要小结: 该研究介绍了TravelAgent,这是一个基于大型语言模型(LLM)的旅行规划系统,旨在动态现实场景中提供合理、全面且个性化的旅行行程,包含工具使用、推荐、规划和记忆模块,并通过人与模拟用户的评估验证了其在合理性、全面性和个性化三个关键指标上的有效性。
Paper176 An Evaluation Framework for Attributed Information Retrieval using Large Language Models
摘要小结: 本论文提出了一个可复现的框架,用于评估和基准化大型语言模型在信息寻求场景下的归因信息搜索,特别是针对更具有挑战性的开放性查询,该框架可以使用任何骨干LLM和不同的架构设计,实验显示不同场景对答案的正确性和可归因性有影响。
Paper177 WirelessAgent: Large Language Model Agents for Intelligent Wireless Networks
摘要小结: 本文介绍了WirelessAgent,一种利用大型语言模型(LLMs)开发AI代理的新方法,以管理无线网络中的复杂任务,有效提升网络性能,并通过实验证明了其在网络切片管理中的实际应用和优势。
Paper178 Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM
摘要小结: 该研究通过三个实验(总样本量N=288)探讨了普通民众对于接受大型语言模型(LLM)和法律专业人士生成的法律建议的接受程度及其区分能力;实验发现,当不知道建议来源时,参与者更倾向于接受LLM生成的建议,尽管他们能够超过随机水平地识别出LLM与律师生成的文本之间的差异,最后,文章讨论了结果的潜在解释和风险、研究的局限性、未来工作方向以及语言复杂性和现实世界可比性的重要性。
Paper179 Learning Rules from KGs Guided by Language Models
摘要小结: 本段摘要主要探讨了如何利用语言模型(LMs)来提高知识图谱(KGs)规则学习系统的质量,以解决由于知识图谱半自动构建导致的不完整问题,尤其是在高度不完整或偏向的KGs中,传统的规则排名方法可能不够有效,而作者旨在验证LMs在改善这一过程中的帮助程度。
Paper180 Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat
摘要小结: 本文介绍了CAT框架,该框架通过结合机器学习、大型语言模型(LLMs)和最佳实践,为工业级应用程序创建成本效益高的UI自动化测试,利用检索增强生成技术来提高LLMs在生成特定动作序列时的性能,并通过机器学习技术优化UI元素匹配,展示了在高性能和成本效益方面的优势,并在实际应用中检测出141个bug。