
论文阅读记录
文章平均质量分 93
论文译版以及偶有疑问
绒绒毛毛雨
m
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization
本文提出ASER算法,通过激活平滑和误差重构解决大型语言模型低位量化中的性能下降问题。研究发现量化误差具有低秩特性,且异常值通道贡献了主要误差。ASER采用白化奇异值分解构建LoRA风格的低秩补偿矩阵,并通过异常值分析平滑激活分布。实验表明,该方法在W4A8每通道量化设置下能有效保持模型精度,计算开销小,优于现有量化技术。原创 2025-05-26 18:45:13 · 668 阅读 · 0 评论 -
QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks阅读
后训练量化(Post-training quantization,PTQ)通过将大规模语言模型(LLM)的权重量化为低精度,减少了其内存占用。在这项工作中,我们引入了QuIP#,这是一种仅对权重进行PTQ的方法,在极端压缩(≤4比特每权重)条件下实现了最先进的结果。QuIP#使用了三种新技术:首先,QuIP#改进了QuIP(Chee等人,2023)的相干处理,使用了随机Hadamard变换,该变换速度更快并且具有更好的理论性质。原创 2024-11-13 15:32:19 · 897 阅读 · 0 评论 -
QTIP: Quantization with Trellises and Incoherence Processing阅读
(Chee等人): 如果Hessian (H \in \mathbb{R}^{n \times n}) 的特征分解 (H = Q \Lambda Q^T) 满足 (\max_{i,j} |Q_{ij}| = \max_{i,j} |e_i^T Q e_j| \leq \mu / \sqrt{n}),则Hessian (H)是(\mu)-不相关的。原创 2024-11-13 15:35:05 · 914 阅读 · 0 评论 -
KGA:AGeneral Machine Unlearning Framework Based on Knowledge Gap Alignment
最近关于“被遗忘权”的立法引发了对机器去学习的关注,其中训练模型具备忘记特定训练实例信息的功能,就好像这些实例从未存在于训练集中一样。之前的研究主要集中在计算机视觉场景上,较少关注自然语言处理(NLP)领域的去学习要点,而文本数据中包含比图像更明确和敏感的个人信息。在本文中,我们提出了一种称为KGA的通用去学习框架,以引导模型的遗忘。与之前的研究试图恢复梯度或强迫模型接近某一特定分布不同,KGA保持了分布差异(即知识差距),这放宽了分布假设。原创 2025-01-10 19:20:13 · 737 阅读 · 0 评论 -
哈利·波特是谁?大型语言模型中的近似取消学习
大型语言模型(LLMs)是在庞大的互联网语料库上训练的,这些语料库通常包含受版权保护的内容。这对这些模型的开发者和用户,以及原作者和出版商带来了法律和伦理挑战。在本文中,我们提出了一种新颖的技术,用于从大型语言模型中取消一部分训练数据,而无需从头重新训练模型。我们在Llama2-7b模型(Meta最近开源的生成语言模型)的任务上评估了我们的技术,以取消哈利·波特书籍的影响。原创 2025-01-10 18:36:51 · 958 阅读 · 0 评论 -
AWQ: ACTIVATION-AWARE W EIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION阅读
大型语言模型(LLM)已经改变了众多人工智能(AI)应用。在设备上运行的LLM变得越来越重要:在边缘设备上本地运行LLM可以降低云计算成本并保护用户隐私。然而,模型体积庞大和硬件资源有限给部署带来了重大挑战。我们提出了激活感知权重量化(AWQ),这是一种对硬件友好的LLM仅低比特权重量化方法。AWQ发现,在LLM中,并非所有权重都同等重要。只需保护1%的显著权重,就能大幅降低量化误差。为了识别显著权重通道,我们应参考激活分布,而非权重。原创 2024-11-13 15:59:28 · 1173 阅读 · 0 评论 -
Revisiting Multi-Codebook Quantization阅读
我感觉事情一多起来我就浮躁,就容易对主线程之外的其他线程不上心。老师问我为啥一见他汇报不到一分钟就想跑路,其实就是事情没干就心虚。唉,所以有很多重要的事情的时候,一定要列个优先级,然后就是踏踏实实地做好当下的每一件事。千万不能好高骛远,得陇望蜀;对于又贪心又着急的人,我们会问:急着去投胎吗?多码书量化(MCQ)是现有基于码书的近似最近邻(ANN)搜索量化方法的广义版本。具体而言,MCQ 独立地为每个子码书选择一个码字,并将选定码字的总和用来近似原始向量。原创 2024-10-25 17:19:57 · 1065 阅读 · 0 评论 -
GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS阅读
生成预训练变换器模型(简称GPT或OPT)因其在复杂语言建模任务中的突破性表现而与众不同,但也因其极高的计算和存储成本而受到关注。具体来说,由于其庞大的规模,即使是高精度的GPT模型在推理时可能也需要多块高性能的GPU,这限制了这些模型的可用性。尽管通过模型压缩来缓解这种压力的工作正在兴起,但现有压缩技术的适用性和性能受限于GPT模型的规模和复杂性。在本文中,我们针对这一挑战提出了GPTQ,这是一种基于近似二阶信息的新型一次性权重量化方法,既高效又高精度。原创 2024-11-13 15:17:35 · 1401 阅读 · 0 评论 -
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models翻译
大型语言模型(LLMs)表现出卓越的性能,但计算和内存需求非常高。量化可以减少内存占用并加速推理。然而,现有的方法无法同时保持准确性和硬件效率。我们提出了SmoothQuant,这是一种无需训练、保持准确性且通用的后训练量化(PTQ)解决方案,使LLMs能够实现8位权重和8位激活(W8A8)的量化。基于权重易于量化而激活不易量化的事实,SmoothQuant通过离线迁移量化难度从激活到权重,从而平滑激活中的异常值,并采用数学等效变换。原创 2024-11-13 15:22:56 · 944 阅读 · 0 评论 -
Evaluating Quantized Large Language Models阅读
后训练量化(PTQ)是降低大型语言模型(LLM)成本的一项有前景的技术。具体来说,PTQ能够有效减少内存消耗并降低LLM的计算开销。为了在各种场景中满足高效率和高性能的要求,对量化LLM的全面评估是指导量化方法选择的关键。本文通过评估PTQ对权重、激活和KV缓存的影响,对包括OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma和Mamba在内的11个模型家族进行了全面评估,其参数范围从125M到180B。原创 2024-11-13 15:16:31 · 999 阅读 · 0 评论 -
Q-DM: AnEfficient Low-bit Quantized Diffusion Model阅读
去噪扩散生成模型能够生成高质量的数据,但由于使用全精度网络进行迭代噪声估计,其生成过程计算成本高昂。直观的解决方案是通过低位参数和操作的量化显著减少计算和内存消耗。然而,扩散模型(DMs)中的低位噪声估计网络尚未被充分研究,并且如我们实验研究中所观察到的那样,其性能远逊于全精度网络。**在本文中,我们首先确定了低位量化扩散模型的瓶颈来源于激活值的大幅分布振荡和多步去噪过程中累积的量化误差。原创 2024-11-13 15:25:24 · 1167 阅读 · 0 评论 -
PTQD: Accurate Post-Training Quantization for Diffusion Models阅读
迭代去噪过程在推理时计算开销巨大,使得扩散模型在低延迟和可扩展的实际应用中不太实用。扩散模型的训练后量化可以显著减少模型大小并加速采样过程,而无需重新训练。然而,直接将现有的训练后量化方法应用于低比特的扩散模型,会显著损害生成样本的质量。具体来说,对于每一步去噪,量化噪声会导致估计均值的偏差,并与预定的方差计划不匹配。此外,随着采样过程的进行,量化噪声可能会积累,在后期去噪步骤中导致信噪比(SNR)较低。为了解决这些挑战,我们提出了一个统一的公式,用于描述量化噪声和量化去噪过程中的扩散扰动噪声。原创 2024-11-13 15:23:58 · 896 阅读 · 0 评论 -
Position-based Scaled Gradient for Model Quantization and Pruning阅读
我们提出了基于位置的缩放梯度(Position-based Scaled Gradient,简称PSG),该方法根据权重向量的位置对梯度进行缩放,使其更易于压缩。首先,我们从理论上证明了将PSG应用于标准梯度下降(Gradient Descent,简称GD),即PSGD,相当于在变形权重空间中的GD,这个变形权重空间是通过一个适当设计的可逆函数扭曲原始权重空间得到的。其次,我们从实验证明了PSG作为权重向量的正则化器,对于量化和剪枝等模型压缩领域是有利的。原创 2024-11-13 15:19:24 · 917 阅读 · 0 评论 -
MetaQuant: Learning to Quantize by Learning to Penetrate Non-differentiable Quantization阅读
深层神经网络的巨大参数量使其在计算能力和存储空间有限的边缘设备上部署变得不切实际。现有研究通过学习量化深度模型,减少模型尺寸和能耗,即在监督训练过程中将全精度权重(r)转换为离散值(q),取得了一定进展。然而,量化的训练过程是不可微的,这导致相对于r的梯度(gr)要么无限大,要么为零。为了解决这个问题,大多数基于训练的量化方法使用相对于q的梯度(gq)并通过截断来近似gr,采用直接通过估计器(STE)或手动设计他们的计算。原创 2024-10-25 18:01:27 · 1098 阅读 · 0 评论 -
SpQR: ASparse-Quantized Representation for Near-Lossless LLM Weight Compression阅读
高质量的大型语言模型(LLMs)具备令人印象深刻的能力。通过将这些LLMs压缩到每个参数3-4比特的量化,可以使其适应内存有限的设备,如笔记本电脑和手机,从而实现个性化使用。然而,将参数量化到3-4比特通常会导致中等到高程度的精度损失,尤其是对于适合边缘部署的1-10B参数范围的小型模型。原创 2024-11-04 09:41:37 · 827 阅读 · 0 评论 -
BitNet: Scaling 1-bit Transformers for Large Language Models
大型语言模型的规模不断增加,给部署带来了挑战,并因高能耗而引发了对环境影响的担忧。在这项工作中,我们介绍了BitNet,一种为大型语言模型设计的可扩展且稳定的1位Transformer架构。具体来说,我们引入了BitLinear,作为nn.Linear层的替代品,以从头开始训练1位权重。语言建模的实验结果表明,BitNet在显著减少内存占用和能耗的同时,实现了与最先进的8位量化方法和FP16 Transformer基线相竞争的性能。原创 2024-10-21 20:21:12 · 1289 阅读 · 0 评论 -
AFFINEQUANT: AFFINE TRANSFORMATION QUANTI ZATION FOR LARGE LANGUAGE MODELS阅读
大规模语言模型(LLMs)所需的显著资源引发了对压缩和加速神经网络技术的广泛兴趣。在这些技术中,训练后量化(Post-Training Quantization,PTQ)因其在训练环境中的显著压缩效率和成本效益而备受关注。现有的LLM PTQ方法将优化范围限制在量化前后权重之间的缩放变换。这种限制在低比特配置下导致了显著的量化误差。本文提倡在PTQ中使用等效的仿射变换(AffineQuant)进行直接优化。该方法扩展了优化范围,从而显著减少了量化误差。原创 2024-10-22 19:05:16 · 1147 阅读 · 0 评论 -
MQBench: Towards Reproducible and Deployable Model Quantization Benchmark阅读
模型量化已成为加速深度学习推理的必不可少的技术。尽管研究人员不断推进量化算法的前沿,但现有的量化工作往往难以复现和部署。这是因为研究人员没有选择一致的训练流程,并忽视了硬件部署的要求。在这项工作中,我们提出了模型量化基准(MQBench),这是首次尝试评估、分析和基准测试模型量化算法的可复现性和可部署性。我们选择了多个不同的平台进行实际部署,包括CPU、GPU、ASIC、DSP,并在统一的训练流程下评估广泛的先进量化算法。MQBench充当算法与硬件之间的桥梁。原创 2024-10-11 12:42:11 · 906 阅读 · 0 评论 -
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge阅读
大型语言模型(LLMs)在复杂的语言建模任务中表现出色,但其计算和内存需求高,限制了在边缘设备上的广泛使用。量化技术被引入以提高LLMs在设备上的效率。最近的研究表明,8位或更低的权重量化对任务性能的总体影响很小,但激活值尚未量化。另一方面,主流的通用边缘设备仍难以有效执行这些低于8位的量化网络。在本文中,我们提出了Agile-Quant,这是一种针对流行大型语言模型的激活引导量化框架,并在多个边缘设备上实现了端到端加速器以提高推理速度。原创 2024-09-30 17:10:11 · 1196 阅读 · 0 评论 -
Temporal Dynamic Quantization for Diffusion Models阅读
扩散模型因其出色的生成性能和多功能性在视觉应用中受到广泛关注。然而,由于模型大小和迭代生成带来的高存储和计算需求,限制了其在移动设备上的使用。现有的量化技术在8位精度下难以维持性能,。我们引入了一种新颖的量化方法,该方法基于时间步信息动态调整量化区间,大幅提高了输出质量。与传统动态量化技术不同,我们的方法在推理过程中没有计算开销,并且兼容于训练后量化(PTQ)和量化感知训练(QAT)。我们的广泛实验表明,经过量化的扩散模型在各种数据集上输出质量显著提升。原创 2024-09-30 21:08:47 · 1034 阅读 · 0 评论 -
FrameQuant: Flexible Low-Bit Quantization for Transformers阅读
Transformers是许多视觉和自然语言处理任务中强大基础模型的核心。但它们的计算和内存/存储需求很大,因此运行这些模型成本高昂,经常需要高端硬件。为了解决这个问题,训练后量化(Post-Training Quantization)试图修改预训练模型,并将其量化到八位或更低,显著提高计算/内存/延迟效率。这类模型在量化到四位时已有成功,但会有一些性能损失。本文提出了一种简单的方法,将基于Transformer的模型量化到仅两位(加上一些开销),且准确性只略有下降。原创 2024-10-09 13:28:59 · 1060 阅读 · 0 评论