91 麻豆 3万字详备解析清华大学最新综述事业：大模子高效推理综述

栏目分类

日韩情色电影: 极品成人故事; 经典成人故事; 成人故事mp3; 性爱故事; 两性故事; 日韩情色电影

热点资讯

白丝 jk 好意思法官将特朗普“封口费”案判决日历推迟至11

91 麻豆 3万字详备解析清华大学最新综述事业：大模子高效推

露出户外垂直升降料箱柜有哪些上风

女同 sex 那些生涯中，玄而又玄的细节，宁实在其有，不实在

涩涩电影网站发生了什么？缅甸小镇大晚上多家众人家用电器同期

肛交清远市挂牌出让一地块，肇始价4170万元

涩涩电影网站库尔斯克交战仍热烈, 俄罗斯嘴上说尽快反击,

【MKD-007】新妻と変態義父4 美月伊朗在中东是什么样

国产人兽鸿蒙「微信」界面首曝，招募范围再扩大

【KIBD-228】ギャルの高速騎乗位が超ヤベェ《真各异后

你的位置：国产视频 > 日韩情色电影 >

91 麻豆 3万字详备解析清华大学最新综述事业：大模子高效推理综述

发布日期：2024-09-07 03:55 点击次数：157

图片91 麻豆

深度学习当然话语处理原创作家：fanmetasy

大模子由于其在千般任务中的出色进展而引起了等闲的柔和。关联词，大模子推理的多量规划和内存需求对其在资源受限场景的部署提倡了挑战。业内一直在竭力开发旨在提重大模子推理效用的工夫。本文对现存的对于高效大模子推理的文件进行了全面的综述总结。开始分析了大模子推理效用低下的主要原因，即大模子参数限度、防备力规划操的二次复杂度作和自转头解码方法。然后，引入了一个全面的分类法，将现存优化事业分裂为数据级别、模子级别和系统级别的优化。此外，本文还对重要子领域的代表性方法进行了对比实验，以及分析并给出一定的见地。终末，对有关事业进行总结，并对畴昔的接洽标的进行了征询。

论文：A Survey on Efficient Inference for Large Language Models地址：https://arxiv.org/abs/2404.14294

1 Introduction

比年来，大模子受到了学术界和工业界的等闲柔和。

LLM领域资格了显赫的增长和显赫的成就。好多开源llm也曾出现，包括gpt-系列(GPT-1， GPT-2和GPT-3)， OPT， lama系列(LLaMA ， LLaMA 2，BaiChuan 2 ，Vicuna， LongChat)， BLOOM， FALCON， GLM和Mtaistral[12]，他们用于学术接洽和买卖落地。大模子的获胜源于其处理千般任务的强劲才能，如神经话语蛊卦(NLU)、神经话语生成(NLG)、推理和代码生成[15]，从而罢了了ChatGPT、Copilot和Bing等有影响力的应用模范。越来越多的东说念主以为[16]LMM士的崛起和取得的成就标志着东说念主类向通用东说念主工智能(AGI)迈进了一大步。

图片

图1：大模子部署挑战

关联词，LLM的部署并不老是很获胜。如图1所示，在推理过程中，使用LLM平方需要更高的规划本钱，内存探询本钱和内存占用。（压根原因分析见Sec. 2.3）在资源受限的场景中，推理效用也会贬抑（如，蔓延，微辞量，功耗和存储）。这对LLM在末端以及云场景这两方面的应用带来了挑战。例如，巨大的存储需求使得在个东说念主札记本电脑上部署70B参数目的模子来用于扶助开发是不切践诺的。此外，如果将LLM用于每一个搜索引擎苦求，那么低微辞量将带来巨大的本钱，从而导致搜索引擎利润的大幅减少。

庆幸的是，多量的工夫也曾被提倡来，以罢了LLM的灵验推理。为了取得对现存接洽的全面了解，并引发进一步的接洽，著述对刻下现存的LLM高效推理事业聘用了分级分类和系统总结。具体来说，将现存事业分裂组织为数据级别、模子级别和系统级别的优化。此外，著述对重要子领域内的代表性方法进行了实验分析，以平稳常识，提供践诺性建议并为畴昔的接洽竭力提供指导。

图片

表1：综述对比

面前，综述[17],[18],[19],[20],[21],[22]均波及LLM领域。这些综述主要辘集在LLM效用的不同方面，但提供了进一步校正的契机。Zhu等[17],Park等[18]和Wang等。[19]将综述的要点放在，模子压缩工夫上，是模子级别的优化。Ding等[20]将数据和模子架构看成接洽要点。Miao等[21]从机器学习系统(MLSys)接洽的角度接洽LLM的灵验推理。比较之下，本文提供了一个更全面的接洽范围，在三个档次上处理优化：数据级别、模子级别和系统级别，同期也囊括了最近的接洽事业。而Wan等[22]和Xu等[23]也对高效LLM接洽进行了全面综述。基于在几个重要的子领域如模子量化和模子server端中进行的实验分析，本文通过整合对比实验，提供践诺的见地和建议。如表1所示，展示了千般综述之间的比较。

本文行文结构分裂如下：第二章先容了LLMs的基本观念和常识，并对LLMs推理过程中效用瓶颈进行了详备的分析。第三章展示了本文提倡的分类法。第四章到第六章从三个不同优化级别分别对有关事业进行展示征询。第七章针对几个重要的应用场景进行更等闲的征询。第八章总结本综述的重要孝敬。

2 Preliminaries2.1 transformer架构的LLM

话语建模看成话语模子的基本功能，包括对单词序列概率进行建模并展望后续单词的概率漫衍。比年来接洽东说念主员发现增多话语模子限度不仅提高了话语建模才能，除了传统的NLP任务以外，还产生了处理更复杂任务的才能[24]，这些限度更大的话语模子是被称为大模子(LLMs)。

主流大模子是基于Transformer架构[25]遐想的。典型的transformer架构的模子由数个堆叠的transformer block组成。平方，一个transformer block由一个多头自防备力（MHSA）模块，一个前馈神经网罗（FFN）和一个LayerNorm（LN）层组成。每个transformer block招揽前一个transformer block的输出特征，并将其看成输入，并将特征串行送进每个子模块中，终末输出。非常的是，在第一个transformer block前，需要用一个tokenizer将传统的输入语句涟漪为token序列，并紧接着使用一个embedding层将token序列涟漪为输入特征。且一个额外的位置embedding被加入到输入特征中，来对输入token序列的token顺次进行编码。

Transformer架构的中枢是自防备力机制，其在多头自防备力（MHSA）模块被使用。MHSA模块对输入进行线性变换，得到了Q，K，V向量，如公式(1)所示：

其中为输入特征，为第个防备力头的变换矩阵。接着自防备力操作被应用于每个（）元组并得到第个防备力头的特征，如公式(2)所示：

其中是query(key)的维度。自防备力规划包含矩阵乘法，其规划复杂度是输入长度的二次方。终末，MHSA模块将整个防备力头的特征进行拼接，并对他们作念映射矩阵变换，如公式(3)所示：

其中是映射矩阵。自防备力机制可以让模子识别不同输入部分的重要性，而毋庸去谈判距离，也已就此可以取得输入语句的长距离依赖以及复杂的关系。

FFN看成transformer block的另一个重要模块，被缔造在多头自防备力（MHSA）模块之后，且包含两个使用非线性激活函数的。其招揽MHSA模块的输出特征如公式（4）所示，进行规划：

其中，和为两个线性层的权重矩阵，为激活函数。

2.2 大模子推理过程

最受宽宥的大模子，如，decoder-only架构的大模子平方聘用自转头的方式生成输出语句，自转头的方式是逐token的进行输出。在每一次生成步中，大模子将往日的全部token序列看成输入，包括输入token以及刚刚生成的token，并生成下一个token。跟着序列长度的增多，生过文本这一过程的时分本钱也显赫藏家。为了处理这个问题，一个重要工夫，key-value（KV）缓存被提倡来，用于加速文本生成。

KV缓存工夫，包括在多头自防备(MHSA)块内，存储和复用前边的token对应的key 向量(K)和value向量(V)。此项工夫在大模子推理以中得到了等闲的应用，因为其对文本生成蔓延罢了了巨大的优化。基于此项工夫，大模子的推理过程可以分裂为两个阶段：

①prefilling阶段：大模子规划并存储原始输入token的KV缓存，并生成第一个输出token，如图2（a）所示

②decoding阶段：大模子诳骗KV 缓存逐一输出token，并用荣达成的token的K，V（键-值）对进行KV缓存更新。

图片

图2：KV缓存工夫在大模子推理中应用旨趣透露图

图片

如图3所示，展示了普及推理效用的重要酌量。对于横轴Latency(蔓延，在预填充（prefilling）阶段，将first token latency记作生成第一个token的时分；在decoding阶段，将per-output token latency记作生成一个token的平均时分。此外，generation latency透露输出通盘token序列的时分。对于纵轴Memory（内存），model size被用来透露存储模子权重所需要的内存大小以及KV cache size代表存储存储KV缓存的内存大小。此外，peak memory代表在生成工程中需要占用的最大内存。其简略为model size与KV cache size之和。对模子权重和KV缓存的内存和。猬缩蔓延和内存中，微辞量（throughput）亦然大模子推理服务系统中的一个等闲使用的酌量。token throughput透露每秒生成的token数目，request throughput透露每秒完成的苦求数。

2.3 推理效用分析

在资源受限的场景中，部署大模子并保抓其推理效用以及性能对于工业界和科研及都是巨大的挑战。例如，对有700亿参数目的LLaMA-2-70B进行部署，以FP16数据阵势对其权重进行加载需要140GB显存（VRAM），进行推理需要至少6张 RTX 3090Ti GPU（单卡显存24GB）或者2张NVIDIA的A100 GPU（单卡显存80GB）。在推理蔓延方面，2张NVIDIA的A100 GPU上生成一个token需要100毫秒。因此，生成一个具特地百个token的序列需要逾越10秒。猬缩内存占用和推理蔓延，微辞量以及动力电量的耗损都需要被谈判。大模子推理过程中，三个重要要素将很大程度上影响上述酌量。规划本钱（computational cost），内存探询本钱（memory access cost）和内存使用（memory usage）。大模子推理低效用的压根原因需要柔和三个重要要素：

①Model Size：主流大模子平方包含数十亿致使万亿的参数。例如，LLaMA-70B模子包括700亿参数，而GPT-3为1750亿参数。在推理过程中，模子大小对规划本钱、内存探询本钱和内存使用产生了显赫影响。

②Attention Operation：如2.1和2.2中所述，prefilling阶段中，自防备操作的规划复杂度为输入长度的2次方，因此输入长度的增多，规划本钱、内存探询本钱和内存使用都会显赫增多。

③Decoding Approach：自转头解码是逐token的进行生成。在每个decoding step，整个模子权重都来自于GPU芯片的片下HBM，导致内存探询本钱巨大。此外，KV缓存跟着输入长度的增长而增长，可能导致内存分散和不规矩内存探询。

3 TAXONOMY

上述部分敷陈了影响大模子推感性能的重要要素，如规划本钱、内存探询本钱和内存使用，并进一步分析了压根原因：Model Size、Attention Operation和Decoding Approach。好多接洽从不同的角度对优化推理效用进行了竭力。通过回想和总结这些接洽，著述将它们分为三个级别的优化，即：数据级别优化、模子级别优化和系统级别优化(如图4所示)：

图片

图4：大模子推感性能优化分类数据级别优化：即通过优化输入prompt（例如，输入压缩)或者更好的组织输出内容（例如，输出组织）。这类优化平方不会调动原来的模子，因此莫得昂然的模子西宾本钱(其中，可能需要对小数的扶助模子进行西宾,但与西宾大模子的本钱比较，这个本钱可以被忽略)。模子级别优化：即在模子推理时，通过遐想一个灵验的模子结构（如灵验的结构遐想）或者压缩预西宾模子（如模子压缩）来优化推理效用。优化第一种优化平方需要腾贵的预西宾或小数的微调来保留或者回复模子才能的本钱，而第二种典型的会给模子性能带来耗损。系统级别优化：即优化推理引擎或者服务系统。推理引擎的优化不需要进行模子西宾，服务系统的优化对于模子性能而言更是无损的。此外，著述还在章节6.3中队硬件加速遐想进行了肤浅的先容。4.数据级别优化

数据级别的优化本年来的事业可以分裂为两类，如优输入压缩或者输出组织。输入压缩工夫径直缩小了模子的输入长度来减少推理耗损。同期输出组织工夫通过组织输出内容的结构来罢了批量(并行)推理，此方法可以普及硬件诳骗率和贬抑模子的生成蔓延。

4.1输入压缩

在大模子的践诺应用中，教唆词prompt至关重要，好多事业都提倡了遐想教唆词的新方法，它们在实践中均展示出悉心遐想的教唆可以开释大模子的性能。例如，落魄体裁习（In-Context Learning）建议在prompt中包含多个有关示例，这种方法能够饱读动大模子去进行类比学习。想维链（Chain-of-Thought， COT）工夫则是在落魄文的示例中加入一系列中间的推理门径，用于匡助大模子进行复杂的推理。关联词，这些教唆词上的有关手段不可幸免地会导致教唆词更长，这是一个挑战，因为规划本钱和内存使用在prefilling时间会二次增长(如2.3节所示)。

为了处理这个问腿输入prompt压缩工夫被提倡来用于缩小教唆词长度且不合大模子的回答质料组成显赫性影响。在这一工夫方面，有关接洽可分为四个方面，如图5所示：教唆词编著（prompt pruning），教唆词总结（prompt summary），基于教唆词的软压缩（soft prompt-based compression）和检索增强生成（retrieval augmented generation， RAG）。

图片

图5：大模子输入压缩方法分类4.1.1 教唆词编著（prompt pruning）

教唆词编著的中枢想想是从输入prompt中基于预界说或者学习到的重要性酌量中去在线去除不重要的token，语句或者文档。DYNAICL提倡对给定输入，动态地详情落魄文示例的最优数目，通过一个西宾好的基于大模子的controller。Selective Context这篇论文提倡将token合并为数个单位，接着使用一个基于self-information酌量（如，negative log likelihood）的单位级别地prompt编著。STDC论文基于解析树进行教唆词编著，其迭代地删除在编著后导致最小性能下落的短语node。PCRL论文引入了一种基于强化学习的token级别的编著有酌量。PCRL背后的中枢想想是通过将至意度和压缩比组合到奖励函数中来西宾一个计谋大模子。至意度是通过规划经过编著后的输出教唆符和原始教唆词之间的相似度来计算的。RECOMP方法罢了了一种句子级别编著计谋来压缩用于检索增强话语模子(Retrieval-Augmented Language Models， RALMs)的教唆。该方法包括使用预西宾的encoder将输入问题和文档编码为latent embedding。然后，它证据文档embedding与问题embedding的相似度决定要去除哪些文档。LLMLingua引入了一种粗到细的剪枝有酌量，用于prompt压缩。领先，它推论示范级别的编著，然后证据困惑度推论token级别的编著。为了提高性能，LLMLingua提倡了一个预算摆布器，在教唆词的不同部分之间动态分派编著预算。此外，它诳骗迭代式的token级的压缩算法来干事理要求幽静性假定引入的不准确性。LLMLingua还聘用了一种漫衍对王人计谋，将办法大模子的输出漫衍与用于困惑度规划的较小大模子进行对王人。LongLLMLingua[41]在LLMLingua的基础上进行了一些加强:(1)它诳骗以输入问题为要求的困惑度看成教唆词编著的酌量。(2)它为不同的演示分派不同的修剪比例，并证据其酌量值在最终教唆词内从新排序。(3)基于反映恢收复始内容。CoT-Influx引入了一种使用强化学习对想维链(CoT)教唆词进行粗到细粒度编著的方法。具体来说，它会先编著去除不重要的示例，然后在剩下的示例中延续删除不重要的token。

4.1.2 教唆词总结（prompt summary）

教唆词总结的中枢想想是在保抓相似的语义信息的前提下，将原有教唆词浓缩为更短的总结。这些工夫还可以看成教唆词的在线压缩方法。与前边提到的保留未编著符号的教唆词编著工夫不同，这一滑方法将通盘教唆符鼎新为总结。RECOMP[34]引入了一个抽象压缩器（Abstractive Compressor），其将输入问题和检索到的文档看成输入，生成一个精炼的摘录。具体来说，它从大限度的大模子中索要轻量级压缩器来进行总结事业。SemanticCompression提倡了一种语义压缩方法。它开始将文天职解成句子。然后，它证据主题将句子分组，然后总结每组中的句子。

4.1.3 基于教唆词的软压缩（Soft Prompt-based Compression）

这种压缩工夫的中枢想想是遐想一个比原始教唆词短得多的软教唆词，看成大模子的输入。软教唆词被界说为一系列可学习的连气儿token。有些工夫对固定前缀的教唆词(如系统教唆词、特定任务教唆词)聘用脱机压缩。例如，PromptCompression西宾软教唆来模拟预定的系统教唆词。该方法包括在输入token之前添加几个软token，并允许在反向传播时间对这些软token进行调整。在对教唆数据集进行微调之后，软token序列充任软教唆词。Gisting引入了一种方法，使用前缀词调优将特定任务的教唆词压缩为一组精炼的gist token。鉴于特定任务的教唆会因任务而异，前缀词调优将针对每个任务单独使用。为了提高效用，Gisting进一步引入了一种元学习方法，用于展望新的未见过的gist token基于先前任务中的的gist token。

其他工夫对每个新的输入教唆词进行在线压缩。例如，AutoCompressors西宾一个预西宾的话语模子，通过无监督学习将教唆词压缩成总结向量。ICAE西宾了一个自动编码器将原始落魄文压缩到短记念槽中。具体来说，ICAE聘用适当LoRA的大模子看成编码器，并使用办法大模子看成解码器。在输入token之前添加一组记念token并将其编码到记念槽中。

4.1.4 检索增强生成（retrieval augmented generation， RAG）

检索增强生成(Retrieval-Augmented Generation, RAG)旨在通过整合外部常识来源来提重大模子回答的质料。RAG也可以看作是在处理多量数据时提高推理效用的一种工夫。RAG莫得将整个信息合并到一个过长的prompt中，而是将检索到的有关信息添加到原始教唆符中，从而确保模子在显赫减少教唆词长度的同期招揽到必要的信息。FLARE使用对行将到来的句子的展望来主动决定何时以及检索什么信息。REPLUG将大模子视为一个黑盒，并使用可调检索模子对其进行扩充。它将检索到的文档添加到冻结的黑盒大模子的输入中，并进一步诳骗大模子来监督检索模子。Self-RAG通过检索和自我反想来提重大模子的质料和确实性。它引入了反馈token，使大模子在推理阶段可控。

4.2 输出组织（Output Organization）

传统的大模子的推理过程是王人备顺次生成的，这会导致多量的时分耗损。输出组织工夫旨在通过组织输出内容的结构来(部分地)罢了并行化生成。

想维骨架(Skeleton-of-Thought, SoT)是这个标的的前驱。SoT背后的中枢想想是诳骗大模子的新兴才能来对输出内容的结构进行遐想。具体来说，SoT包括两个主要阶段。在第一阶段(即框架阶段)，SoT指导大模子使用预界说的“框架教唆词”生成谜底的简明框架。例如，给定一个问题，如“中国菜的典型类型是什么?”，这个阶段的输出将是一个菜的列表(例如，面条，暖锅，米饭)，莫得详备的刻画。然后，在第二阶段(即点扩展阶段)，SoT指导大模子使用“点扩展教唆符”来同期扩展骨架中的每个点，然后将这些拓展蛊卦起来最终形成终末谜底。当应用于开源模子时，可以通过批推理推论点扩展，这可以普及硬件诳骗率，并在使用相易的规划资源的前提下减少总体生成蔓延，以减少额外的规划。SoT的推理经由展示如图6所示：

图片

由于额外的教唆词(如骨架教唆词和点扩展教唆词)带来的支出，SoT征询了在点扩展阶段跨多个点来分享群众教唆词前缀的KV缓存的可能性。此外，SoT使用路由模子来决定SoT是否恰当应用于特定的问题，目的是将其限制在合适的情况下使用。拆伙，SoT在最近发布的12个大模子上罢了了高达2.39倍的推理加速，并通过提高谜底的千般性和有关性来提高谜底质料。

SGD进一步扩展了SoT的想想，其将子问题点组织成一个有向无环图(DAG)，并在一个回合内并行地回答逻辑幽静的子问题。与SoT访佛，SGD还诳骗大模子的新兴才能，通过提供我方制作的教唆词和几个示例来生成输出结构。SGD放宽了不同点之间严格的幽静性假定，以提高谜底的质料，非常是对于数学和编码问题。与SoT比较，SGD优先谈判谜底质料而不是速率。此外，SGD引入了一个自适当的模子取舍方法，来证据其测度的复杂性为每个子问题分派最优模子大小，从而进一步提高效用。

丝袜制服

APAR聘用了与SoT访佛的想想，诳骗大模子输出特殊的摆布token(如，[fork])来自动动态的触发并行解码。为了灵验地诳骗输出内容中固有的可并行化结构并准确地生成摆布token，APAR对大模子进行了微调，这些大模子是悉心遐想的数据上进行的，这些数据是在特定树结构中形成的。因此，APAR在基准测试中罢了1.4到2.0倍的平均加速，且对谜底质料的影响可以忽略不计。此外，APAR将他们的解码方法与推测解码工夫(如Medusa)和推理框架(如vLLM)结合，来进一步校正推理蔓延和系统微辞量。

SGLang在Python 特征原语中引入了一种领域特定话语(DSL)，其能够无邪地促进大模子编程。SGLang的中枢想想是自动分析千般生成调用之间的依赖关系，并在此基础上进行批量推理和KV缓存分享。使用该话语，用户可以圣洁罢了千般教唆词计谋，并从SGLang的自动效用优化(如SoT，ToT）中收益。此外，SGLang 还先容并结合了几种系统级别的编译工夫，如代码挪动和预取注视。

4.3 意识，建议和畴昔标的

大模子处理更长的输入、生成更长的输出的需求日益增长，这突显了数据级别的优化工夫的重要性。在这些工夫中，输入压缩方法的主要办法是通过减少由attention操作引起的规划和内存本钱来普及prefilling阶段的效用。此外，对于基于API的大模子，这些方法可以减少与输入token有关的API本钱。比较之下，输出组织方法侧重于通过贬抑与自转头解码方法有关的多量内存探询本钱来优化解码阶段。

跟着大模子的功能越来越强劲，是有可能能诳骗它们来压缩输入教唆词或构建输出内容的。输出组织方法的最新进展也评释注解了诳骗大模子将输出内容组织成幽静点或依赖图的灵验性，从而便于批量推理以改善生成蔓延。这些方法诳骗了输出内容中固有的可并行结构，使大模子能够推论并行解码，从而提高硬件诳骗率，从而减少端到端的生成蔓延。

最近，千般教唆词pipeline(如，ToT ，GoT)和Agent框架正在出现。诚然这些改进提高了大模子的才能，但它们也增多了输入prompt的长度，导致规划本钱增多。为了处理这个问题，聘用输入压缩工夫来减少输入长度是一种很有但愿的处理有酌量。同期，这些pipeline和框架当然地为输出结构引入了更多的并行性，增多了并行解码和跨不同解码线程来分享KV cache的可能性。SGLang支抓无邪的大模子编程，并为前端和后端协同优化提供了契机，为该领域的进一步扩展和校正奠定了基础。总之，数据级别优化，包括输入压缩和输出组织工夫，在可猜测的将来，为了提重大模子推理效用，将变得越来越必要。

除了优化现存框架的推理效用外，一些接洽还侧重于径直遐想更高效的智能体框架。例如，FrugalGPT提倡了一个由不同大小的大模子组成的模子级联，如果模子对谜底达到富足的详情趣水平，那么推理过程就会提前住手。该方法通过诳骗分层的模子体紧缚构和基于模子置信度测度的智能推理远隔来提高效用。与模子级别的动态推理工夫(第5.2.5节)比较，FrugalGPT在pipeline级别推论动态推理。

5 模子级别优化

大模子高效推理的模子级别优化主要辘集在模子结构或数据透露的优化上。模子结构优化包括径直遐想灵验的模子结构、修改原模子和调整推理时分结构。在数据透露优化方面，平方聘用模子量化工夫。

在本节中，著述将证据所需的额外西宾支出对模子级别的优化工夫进行分类。第一类包含遐想更灵验的模子结构(又叫灵验结构遐想)。使用这种方法开发的模子平方需要重新入手西宾。第二类侧重于压缩预西宾模子(称为模子压缩)。此类别中的压缩模子平方只需要最小的微调即可回复其性能。

5.1 灵验结构遐想

面前，SOTA大模子平方使用Transformer架构，如2.1节所述。关联词，基于transformer的大模子的重要组件，包括前馈网罗(FFN)和attention操作，在推理过程中存在效用问题。著述以为原因如下:

FFN在基于transformer的大模子中孝敬了很大一部分模子参数，这导致显赫的内存探询本钱和内存使用，非常是在解码阶段。例如，FFN模块在LLaMA-7B模子中占63.01%，在LLaMA-70B模子中占71.69%。attention操作在的复杂度是输入长度的二次方，这导致多量的规划本钱和内存使用，非常是在处理较长的输入落魄文时。

为了处理这些规划效用问题，一些接洽辘集在开发更灵验的模子结构上。著述将有关接洽分为三组(如图7所示)：高效FFN遐想、高效防备力遐想和Transformer替代。

图片

图7：大模子灵验结构遐想分类5.1.1 高效FFN遐想

在这一方面，好多接洽都辘集在将夹杂内行(mixture-of-experts, MoE)工夫集成到大模子中，以提重大模子的性能，同期保抓规划本钱。MoE的中枢想想是动态地分派千般预算，在面对不同的输入token时。在基于MoE的Transformers中，多个并行的前馈审计网罗(FFN)，即内行，与可西宾的路由模块一齐使用。在推理过程中，模子取舍性地为路由模块摆布的每个token激活特定的内行。

一些接洽辘集接洽FFN内行的事业，主如果在优化内行权值的获取过程或使内行更轻量化以提高效用。例如，MoEfication遐想了一种方法，使用预西宾的权重将非MoE大模子鼎新为MoE版块。这种方法免去了对MoE模子进行腾贵的预西宾的需要。为了罢了这个工夫，MoEfication开始将预西宾大模子的FFN神经元分红多组。在每一组中，神经元平方同期被激活函数激活。然后，它以内行的身份重组每组神经元。Sparse Upcycling引入了一种方法，径直从密集模子的checkpoint中入手化基于MoE的LLM的权重。在这种方法中，基于MoE的LLM中的内行是密集模子中FFN的精准复成品。通过使用这种肤浅的入手化，Sparse Upcycling可以灵验地西宾MoE模子以达到高性能。MPOE提倡通过矩阵乘积算子(Matrix Product Operators, MPO)明白来减少基于MoE的大模子的参数。该方法将FFN的每个权重矩阵明白为一个包含群众信息的全局分享张量和一组拿获特定特征的局部扶助张量。

另一项接洽侧重于校正MoE模子中路由模块(或计谋)的遐想。在以前的MoE模子中，路由模块容易导致负载不服衡问题，这意味着一些内行被分派了多量token，而另一些内行只处理小数token。这种不服衡不仅糜费了未充分诳骗的内行的才能，贬抑了模子的性能，还贬抑了推断推理质料。刻下的MoE罢了平方使用批矩阵乘法来同期规划整个FFN内行。这就要求每个内行的输入矩阵必须具有相易的体式。关联词，由于存在负载不服衡问题，需要向那些未充分诳骗的内行中填充输入token集以安静体式阻挡，这会酿陋习划糜费。因此，路由模块遐想的主要办法是在MoE内行的token分派中罢了更好的平衡。Switch Transformers在最终loss函数中引入了一个额外的loss，即负载平衡loss，以处分路由模块的不服衡分派。这种loss被表述为token分派分数向量和均匀漫衍向量之间的缩放点积。因此，唯一在整个内行之间平衡token分派时，耗损才会最小化。这种方法饱读动路由模块在内行之间均匀地分发token，促进负载平衡并最终提高模子性能和效用。BASE用端到端的方式学习了每个内行的embedding，然后证据embedding的相似性将内行分派给令token。为了保证负载平衡，BASE制定了一个线性分派问题，并诳骗拍卖算法灵验地处理了这个问题。Expert Choice引入了一种肤浅而灵验的计谋来确保基于MoE的模子的无缺负载平衡。与以前将内行分派给token的方法不同，Expert Choice允许每个内行证据embedding的相似度幽静取舍top-k个token。这种方法确保每个内行处理固定数目的token，即使每个token可能分派给不同数目的内行。

除了上述柔和模子架构自身的接洽外，也有对基于MoE的模子的西宾方法校正的有关事业。SE-MoE引入了一种新的扶助loss，称为router z-loss，其目的是在不影响性能的情况下提高模子西宾的矫健性。SE-MoE发面前路由模块中，softmax操作所引入的指数函数会加重舍入罪恶，导致西宾不矫健。为了处理这个问题，router z-loss会处分输入到指数函数中的大约率，从而最小化西宾时间的舍入罪恶。StableMoE指出基于MoE的大模子存在路由波动问题，即在西宾和推理阶段内行分派不一致。对于相易的输入token，在西宾时其被分派给了不同的内行，但在推理时却只激活一个内行。为了处理这个问题，StableMoE建议聘用更一致的西宾方法。它开始学习路由计谋，然后在模子骨干西宾和推理阶段保抓固定的路由计谋。SMoE-Dropout为基于MoE的大模子遐想了一种西宾方法，其提倡在西宾过程中缓缓增多激活内行的数目。这种方法普及了基于MoE的模子的推理和卑劣微调的可扩展性。GLaM预西宾并发布了一系列具有不同参数大小的模子，这评释注解了它们在few-shot任务上与密集大模子的性能非常。这个系列模子中，最大的模子的参数高达1.2万亿。Mixtral 8x7B是最近发布的一个引东说念主闪耀的开源模子。在推理过程中，它只诳骗了130亿个行径参数，在不同的基准测试中取得了比LLaMA-2-70B模子更好的性能。Mixtral 8x7B每层由8个前馈网罗(FFN)内行组成，每个token在推理过程均分派给两个内行。

5.1.2 高效attention遐想

attention操作是Transformer体紧缚构中的一个重要部分。关联词，它的规划复杂度是与输入长度有关的二次方，这导致了多量的规划本钱、内存探询本钱和内存使用，非常是在处理长落魄文时。为了处理这个问题，接洽东说念主员正在探索更灵验的方法来近似原始attention操作的功能。这些接洽大致可以分为两个主要分支：multi-query attention和low complexity attention。

①Multi-Query Attention。Multi-Query Attention（MQA）通过分享横跨不同防备力头的KV缓存来优化attention 操作。这项计谋灵验的减少了推理时的内存探询本钱和内存使用，对改善Transformer模子的性能带来了匡助。如第2.2节所述，transformer类型的大模子平方聘用多头防备力(MHA)操作。该操作需要在解码阶段为每个防备力头存储和检索KV对，导致内存探询本钱和内存使用大幅增多。而MQA通过在不同的头上使用相易的KV对，同期保抓不同的Q值来处理这一问题。通过等闲的测试，MQA也曾被评释注解可以显赫贬抑内存需求，且对模子性能的影响很小，这使它成为一个提高推理效用的重要工夫。Grouped-query attention(GQA)进一步扩展了MQA的观念，它可以看作是MHA和MQA的夹杂。具体来说，GQA将防备力头分红不同的组，然后为每个组存储一组KV值。这种方法不仅保抓了MQA在减少内存支出方面的上风，还强化了推理速率和输出质料之间的平衡。

②Low-Complexity Attention。Low-Complexity Attention方法旨在遐想新的机制来贬抑每个防备力头的规划复杂度。为了简化征询，这里假定Q(查询)、K(键)和V(值)矩阵的维度是相易的，即。由于底下的事业不波及像MQA那样调动防备头的数目，此处的征询辘集在每个头内的防备力机制。如2.2节所述，传统防备力机制的规划复杂度为，非常于跟着输入长度增长，呈二次增长。为了处理低效用问题，Kernel-based Attention和Low-Rank Attention方法被提倡，此方法将复杂度贬抑到。

Kernel-based Attention。基于核的防备力遐想了一个核，通过变换特征映射之间的线性点积如，，来近似的非线性softmax操作。它通过优先规划，然后将其与相乘，从而幸免了与有关的传统二次规划。具体来说，输入Q和K矩阵开始通过核函数映射到核空间，然而保抓其原始维度。接着诳骗矩阵乘法的关联秉性，允许K和V在与Q交互之前相乘。因此防备力机制被从新表述为：

其中，。此方法灵验的将规划复杂度贬抑至，使其与输入长度成线性关系。Linear Transformer是第一个提倡基于核的防备力的事业。它聘用看成核函数，其中透露指数线性单位激活函数。Performers和RFA提倡使用未必特征映射来更好地近似softmax函数。PolySketchFormer聘用多项式函数和素描工夫近似softmax函数。

Low-Rank Attention。 Low-Rank Attention工夫在推论防备规划之前，将K和V矩阵的token维度(如)压缩到较小的固定长度(即如)。该方法基于对防备力矩阵平方进展出低秩秉性的意识，使得在token维度上压缩它是可行的。这条接洽门路的主要重点是遐想灵验的压缩方法，其中可以是落魄文矩阵，也可以是K和V矩阵：

有一种事业是使用线性投影来压缩token维度。它通过将K和V矩阵与映射矩阵相乘来完成的。这么，防备力规划的规划复杂度降至，与输入长度成线性关系。Linformer开始不雅察并分析了防备力的低秩性，提倡了低秩防备力框架。LRT提倡将低秩变换同期应用于attention模块和FFN，来进一步提高规划效用。FLuRKA将低秩变换和核化结合到防备力矩阵中，进一步提高了效用。具体的说，它开始贬抑K和V矩阵的token的维度，然后对Q和低秩K矩阵应用核函数。

除了线性映射外，其他的token维度压缩方法也被提倡出来。Luna和Set Transformer诳骗额外的防备力规划和较小的query来灵验地压缩K和V矩阵。Luna则是使用了一个额外的固定长度为的query矩阵。小的query使用原始的落魄文矩阵推论防备力规划，称为pack attention，来将落魄文矩阵压缩到大小为。随后，旧例的防备力规划，称为unpack attention，将防备力规划应用于原始Q矩阵和压缩的K和V矩阵。额外的query矩阵可以是可学习的参数或从前一层中获取。Set Transformer通过引入固定长度的矢量，遐想了访佛的工夫。FunnelTransformer不同于以往压缩K和V的事业，它使用池化操作来缓缓压缩Q矩阵的序列长度。

5.1.3 Transformer替代

除了聚焦于优化防备力操作以外，最近的接洽还改进地遐想了高效而灵验的序列建模体紧缚构。表2比较了一些代表性的非transformer架构模子的性能。在西宾和推理过程中，这些架构的模子在序列长度方面进展出小于二次方的规划复杂度，使大模子能够明显增多其落魄文长度。

图片

典型非Transformer架构模子性能比较

在这些接洽中，有两个卓绝的接洽标的引起了极大的柔和。其中一条接洽辘集在现象空间模子(State Space Model, SSM)上，该模子将序列建模视作一种基于HiPPO表面的递归变换。此外，其他接洽主要辘集在使用长卷积或遐想访佛防备力的公式来建模序列。

State Space Model：现象空间模子（SSM）在某些NLP和CV任务中的建模才能极具竞争力。与基于防备力的Transformer比较，SSM在输入序列长度方面进展出线性的规划和存储复杂度，这提高了其处理长落魄文序列的才能。本篇综述中，SSM是指一系列安静以下两个属性的模子架构:

(1)它们基于HiPPO和LSSL提倡的以下公式对序列进行建模：

其中，透露挪动矩阵。为中间现象，为输入序列。

(2)他们基于HiPPO表面遐想了挪动矩阵A。具体来说，HiPPO提倡通过将输入序列映射到一组多项式基上，将其压缩为统统序列(即)。

在上述框架的基础上，一些接洽主要辘集在校正挪动矩阵A的参数化或入手化。这包括在SSM中从新界说矩阵的公式或入手化方式，以增强其在序列建模任务中的灵验性和性能。LSSL开始提倡用HiPPO遐想的最优挪动矩阵入手化A。此外，LSSL还通过张开公式(7)，以卷积的方式西宾SSM。具体地说，通过界说一个卷积核为，可以将公式(7)改写为，也可以通过快速傅里叶变换(FFT)高效地规划。关联词，规划这个卷积核的代价是腾贵的，因为它需要屡次乘以A。为此，S4、DSS和S4D提倡对矩阵A进行对角化，从而加速规划速率。这可以看作是鼎新矩阵A的参数化工夫。往日的SSM幽静处理每个输入维度，从而会产生多量可西宾的参数。为了提高效用，S5提倡使用一组参数同期处理整个输入维度。在此结构的基础上，S5先容了基于程序HiPPO矩阵的A的参数化和入手化方法。Liquid S4和Mamba以输入依赖的方式对挪动矩阵进行参数化，这进一步增强了SSM的建模才能。此外，S5和Mamba均聘用并行扫描工夫，无需卷积操作即可进行灵验的模子西宾。这种工夫在当代GPU硬件上的罢了和部署方面具有上风。

另一类接洽标的是基于SSM遐想更好的模子架构。GSS和BiGS结合了门控防备力单位(GAU)和SSM。它们将GAU中的防备力操作替换为SSM操作。BST将SSM模子与提倡的使用强局部感应偏置的Block Transformer相结合。H3不雅察到SSM在调回较早的token和跨序列比较token方面很弱。为此，它建议在程序SSM操作之前增多一个移位SSM操作，用于径直将输入令牌移位干涉现象。MambaFormer结合了程序Transformer和SSM模子，将Transformer中的FFN层替换为SSM层。Jamba引入了另一种方法，通过在SSM模子中添加四个Transformer层来组合Transformer和SSM模子。DenseMamba探讨了传统SSM中狡饰现象退化的问题，并在SSM体紧缚构中引入了昌盛蛊卦，以在模子的更深层中保存细粒度信息。BlackMamba和MoE- mamba提倡用夹杂内行(Mixture-of-Experts, MoE)工夫增强SSM模子，在保抓模子性能的同期优化西宾和推理效用。

其他代替：除了SSM以外，还有其他几种高效的替代有酌量也引起了极大的柔和，包括长卷积和类attention的递归运算。一些接洽在长序列建模中聘用了长卷积。这些事业东如果对于卷积参数的参数化的。例如，Hyena聘用了一种数据有关的参数化方法，用于使用浅前馈神经网罗(FFN)的长卷积。其他遐想类防备力操作，但可以纳入轮回方式的接洽，从而罢了高效的西宾和高效的推理。例如，RWKV是在AFT的基础上修复的，AFT提倡将Transformer模子中的防备力操作代入如下公式:

其中，和Transformer通常，分别为quey，key，vakue，为一个可学习的成对位置偏差和为一个非线性函数。具体来说，它进一步将位置偏差进行重参数化，，因此可以将公式（8）重写为递归时局。这么，RWKV可以将Transformer的灵验并行化西宾秉性和RNN的高效推理才能结合起来。

成果分析：著述在表2均分析和比较了几种改进的和具有代表性的非Transformer架构的模子的规划和内存复杂性。在西宾时分方面，好多模子(如S4, Hyena, RetNet)这些通过使用卷积或防备力等西宾时局来保抓西宾并行性。值得防备的是，Mamba用并行扫描工夫处理输入序列，从而也使用了西宾并行性。

另一方面，在推理过程中，大多数接洽取舍轮回架构来保抓prefilling阶段的线性规划复杂度并在decoding阶段保抓落魄文长度不可知。而且，在decoding阶段，这些新颖的体紧缚构摒除了缓存和加载历史token的秉性的需要(访佛于基于Transformer的话语模子中的KV缓存)，从而显赫简约了内存探询本钱。

5.2 模子压缩

模子压缩包括一系列旨在通过修改预西宾模子的数据透露(例如，量化)或调动其模子架构(例如，疏淡化、结构优化和动态推理)来提高其推理效用的工夫，如图8所示。

图片

图8：大模子的模子压缩方法分类5.2.1 量化

量化是一种等闲使用的工夫，通过将模子的权重和激活从高位宽透露鼎新为低位宽透露来减少大模子的规划和内存本钱。具体来说，好多方法都波及到将FP16张量量化为低位整型张量，可以透露为如下公式:

其中透露16位浮点(FP16)值，透露低精度整数值，透露位数，和透露缩放因子和零点。

鄙人面，本文从效用分析入手，评释量化工夫若何减少大模子的端到端推理蔓延。随后，再分别详备先容两种不同的量化事业经由：Post-Training Quantization (PTQ)和Quantization-Aware Training (QAT)。

效用分析：如2.2节所述，大模子的推理过程包括两个阶段：prefilling阶段和decoding阶段。在prefilling阶段，大模子平方处理长token序列，主要操作是通用矩阵乘法(GEMM)。Prefilling阶段的蔓延主要受到高精度CUDA内核推论的规划操作的限制。为了处理这个问题，现存的接洽方法对权重和激活量化，以使用低精度Tensor核来加速规划。如图9 (b)所示，在每次GEMM操作之前会在线推论激活量化，从而允许使用低精度Tensor核(例如INT8)进行规划。这种量化方法被称为权重激活量化。

比较之下，在解码阶段，大模子在每个生成步中只处理一个token，其使用通用矩阵向量乘法(GEMV)看成中枢操作。解码阶段的蔓延主要受到加载大权重张量的影响。为了处理这个问题，现存的方法只柔和量化权重来加速内存探询。这种方法称为，开始对权重进行离线量化，然后将低精度权重去量化为FP16阵势进行规划，如图9 (a)所示。

图片

图9：(a)纯权分量化推理经由。(b)权重激活量化推理经由。

Post-Training Quantization： PTQ波及对预西宾模子进行量化，而不需要再西宾，这可能是一个腾贵的过程。尽管PTQ方法也曾在较小的模子中得到了很好的探索，然而将现存的量化工夫径直应用于大模子存在清苦。这主如果因为与较小的模子比较，大模子的权重和激活平方进展出更多的非常值，况且具有更宽的漫衍范围，这使得它们的量化更具挑战性。总之，大模子的复杂秉性，以其限度和复杂性为特征，需要用故意的方法来灵验地处理量化过程。大模子中非常值和更宽的漫衍范围的存在需要开发量身定制的量化工夫，以便在不影响模子性能或效用的情况下处理这些特有的特征。

多量的接洽致力于开发灵验的量化算法来压缩大模子。本文在表3中提供了跨四个维度分类的代表性算法的玄虚。对于量化张量的种类，某些接洽专注于weight-only quantization，而其他好多接洽则专注于权重和激活的量化。值得防备的是，在大模子中，KV缓存代表了影响内存和内存探询的特有组件。因此，一些接洽提倡对KV缓存进行量化。在量化阵势方面，为了便于硬件罢了，大多数算法聘用长入的阵势。对于量化参数(如缩放因子、零点)的详情，大多数接洽依赖于由权重或激活值得出的统计数据。关联词，也有一些接洽主张基于重构loss来寻找最优参数。此外，一些接洽也建议在量化之前或量化过程中更新未量化的权重(称为)以提高性能。

在weight-only quantization方法中，GPTQ代表了大模子量化的早期较好的事业，它修复在传统算法OBQ的基础上。OBQ通过相对于未量化权重的Hessian矩阵的重建罪恶的方法，来罢了每行权重矩阵的最优量化顺次。在每个量化门径之后，OBQ迭代调整未量化的权重以收缩重建罪恶。关联词，量化过程中频繁更新Hessian矩阵增多了规划复杂度。GPTQ通过聘用长入的从左到右的顺次来量化每一滑，从而简化了这个过程，从而幸免了多量更新Hessian矩阵的需要。该计谋通过在量化一滑时仅规划Hessian矩阵，然后将规划拆伙用于后续行，从而大大减少了规划需求，从而加速了通盘量化过程。LUT- GEMM提倡了一种新的诳骗查找表(Look-Up Table, LUT)的去量化方法，旨在通过减少去量化支出来加速量化大模子的推理过程。此外，它聘用了一种称为二进制编码量化(BCQ)的非均匀量化方法，该方法包含了可学习的量化区间。AWQ不雅察到权重通说念对性能的重要性各不相易，非常强调那些与激活非常值的输入通说念对王人的通说念。为了增强重要权重通说念的保存，AWQ聘用了一种重参数化的方法。该方法通过网格搜索取舍重参数化统统，灵验地减小了重构罪恶。OWQ不雅察到量化与激活非常值有关的权重的清苦。为了处理这个问题，OWQ聘用了夹杂精度量化计谋。该方法识别权重矩阵中的弱列，并为这些特定权重分派更高的精度，同期以较低的精度级别量化其余权重。SpQR引入了一种方法，在量化过程中识别和分派更高精度的权重非常值，而其余权重被量化为3位。SqueezeLLM提倡将离群值存储在全精度疏淡矩阵中，并对剩余权重应用非均匀量化。证据量化智谋度详情非均匀量化的值，能够提高量化模子的性能。QuIP引入了LDLQ，一种二次代理办法的最优自适当方法。接洽标明，保证权值与Hessian矩阵之间的不干系性可以提高LDLQ的灵验性。QuIP诳骗LDLQ，通过未必正交矩阵乘法罢了非干系性。FineQuant聘用了一种启发式方法。为了详情每列量化的粒度，结合从实验中取得的训戒见地来遐想量化有酌量。QuantEase的事业修复在GPTQ之上。在对每一层进行量化时，其提倡了一种基于坐标下落的方法来更精准地赔偿未量化的权重。此外，QuantEase可以诳骗来自GPTQ的量化权重看成入手化，并进一步完善赔偿过程。LLM-MQ聘用FP16阵势保护权重非常值，并将其存储在压缩疏淡行(CSR)阵势中，以提高规划效用。此外，LLM-MQ将每个层的位宽分派，建模为整数遐想问题，并聘用高效的求解器在几秒内求解。LLM-MQ还遐想了一个高效的CUDA内核来集成去量化运算符，从而贬抑了规划过程中的内存探询本钱。

对于weight-activation quantization，ZeroQuant聘用细粒度量化权值和激活，诳骗核贯通来最小化量化过程中的内存探询本钱，并逐层进行常识蒸馏以回复性能。FlexGen将权重和KV缓存径直量化到INT4中，以减少无数目推理时间的内存占用。LLM.int8() 发现激活中的非常值辘集在一小部分通说念中。基于这一丝，LLM.int8() 证据输入通说念内的离群值漫衍将激活和权重分红两个不同的部分，以最小化激活中的量化罪恶。包含激活值和权重的非常数据的通说念以FP16阵势存储，其他通说念则以INT8阵势存储。SmoothQuant聘用了一种从新参数化工夫来处理量化激活值的挑战。该方法引入比例因子，扩大了权重通说念的数据范围，缩小了相应激活通说念的数据范围。ZeroQuant引入了权重的组级别的量化计谋和激活的token级别的量化方法。在此方法的基础上，ZeroQuantV2提倡了LoRC(低秩赔偿)工夫，聘用低秩矩阵来收缩量化不准确性。RPTQ发现不同激活通说念的漫衍，实质上是变化的，这给量化带来了挑战。为了缓解这个问题，RPTQ将具有相似激活漫衍的通说念从新组织到集群中，并在每个集群中独随即应用量化。OliVe不雅察到离群值隔邻的正态值不那么重要。因此，它将每个离群值与一个正态值配对，遗弃正态值，以取得更大的离群值透露范围。OS+不雅察到非常值的漫衍是辘集且不合称的，这对大模子的量化提倡了挑战。为了处理这个问题，OS+引入了一种通说念级别的挪动和缩下班夫。在搜索过程去详情挪动和缩放参数，能灵验地处理辘集庸不合称的离群值漫衍。ZeroQuant-FP接洽了将权重和激活值量化为FP4和FP8阵势的可行性。接洽标明，与整数类型比较，将激活量化为浮点类型(FP4和FP8)会产生更好的拆伙。Omniquant与先前依赖量化参数的训戒遐想的方法不同。相背，它优化了权值编著的规模和等效变换的缩放因子，以最小化量化罪恶。QLLM通过罢了通说念重组来处理非常值对量化的影响。此外，QLLM还遐想了可学习的低秩参数，来减小post-quantized模子的量化罪恶。Atom聘用了夹杂精度和动态量化激活的计谋。值得防备的是，它扩展了这种方法，将KV缓存量化为INT4，以提高微辞量性能。LLM-FP4竭力将通盘模子量化为FP4阵势，并引入了预移位指数偏置工夫。该方法将激活值的比例因子与权重相结合，以处理非常值带来的量化问题。BiLLM代表了迄今为止最低位PTQ的事业之一。BiLLM识别了权值的钟形漫衍和权值Hessian矩阵的非常长尾漫衍。在此基础上，提倡了将基于Hessian矩阵的权重结构分类为显赫值和非显赫值，并分别进行二值化。因此，BiLLM可以将大模子等闲量化到1.08位，且不会显赫贬抑困惑度。KVQuant通过在校准集上离线导出最优数据类型，提倡了KV缓存量化的非均匀量化有酌量。KIVI提倡了一种无需调优的2bit KV缓存量化算法，该算法诳骗单通说念量化用于key cache，诳骗单token量化进行value cache。Li等进行了全面的评估，评估了量化对不同张量类型(包括KV Cache)、千般任务、11种不同的大模子和SOTA量化方法的影响。

Quantization-Aware Training：QAT在模子西宾过程中谈判了量化的影响。通过集成复制量化成果的层，QAT有助于权重适当量化引起的装假，从而提高任务性能。关联词，西宾大模子平方需要多量的西宾数据和规划资源，这对QAT的实施组成了潜在的瓶颈。因此，面前的接洽事业辘集在减少西宾数据需求或收缩与QAT实施有关的规划事业的计谋上。为了减少数据需求，LLM-QAT引入了一种无数据的方法，诳骗原始FP16的大模子生成西宾数据。具体来说，LLM-QAT使用词表中的每个token看成生成句子的肇始符号。基于生成的西宾数据，LLM- QAT应用了基于蒸馏的事业流来西宾量化的LLM，以匹配原始FP16大模子的输出漫衍。Norm Tweaking只针对那些在话语类别中占最高比例的话语，作念了肇始符号的限制取舍。这一计谋可以灵验地提高量化模子在不同任务上的生成性能。

为了减少规划量，好多方法聘用高效参数微调(parameter-efficient tuning，PEFT)计谋来加速QAT。QLoRA将大模子的权分量化为4位，随后在BF16中对每个4位权重矩阵使用LoRA来对量化模子进行微调。QLoRA允许在一个唯一30GB内存的GPU上对65B参数的大模子进行灵验的微调。QALoRA则提倡在QLoRA中加入分组量化。作家不雅察到QLoRA中量化参数的数目明显小于LoRA参数的数目，这会导致量化与低秩自适当之间的不服衡。他们建议，组级别的操作可以通过增多专用于量化的参数数目来处理这个问题。此外，QA-LoRA可以将LoRA项合并到相应的量化权矩阵中。LoftQ指出，在QLoRA顶用零入手化LoRA矩阵对于卑劣任务是低效的。看成一种替代有酌量，LoftQ建议使用原始FP16权重与量化权重之间差距的奇异值明白(Singular Value Decomposition，SVD)来入手化LoRA矩阵。LoftQ迭代地应用量化和奇异值明白来取得更精准的原始权重近似值。Norm Tweaking提倡在量化后西宾LayerNorm层，并使用常识蒸馏将量化模子的输出漫衍与FP16模子的输出漫衍进行匹配，达到访佛LLM-QAT的成果，同期幸免了较高的西宾本钱。

对比实验与分析：本综述的作家对不同场景下的weight-only quantization工夫所产生的加速成果。作家使用了LLaMA-2-7B和LLaMA-2-13B，并使用AWQ将它们的权分量化至4-bit。作家使用NVIDIA A100进行实验，并使用TensorRT-LLM和LMDeploy这两个推理框架部署量化后的大模子。然后，作家评估了这些推理框架在不同的输入序列上罢了的加速，这些序列是批大小和落魄文长度不同的。prefilling蔓延、decoding蔓延端到端蔓延的加速成果，如表4所示。

图片

表4：大模子加速成果对比

实验拆伙标明：（1）Weight-only quantization可以在decoding阶段加速，进而罢了端到端的加速。这种普及主要源于从高带宽内存( High Bandwidth Memory，HBM)更快地加载具有低精度权重张量的量化模子，这种方法显赫减少了内存探询支出。(2)对于prefilling阶段，weight-only quantization可能会增多蔓延。这是因为prefilling阶段的瓶颈是规划本钱，而不是内存探询支出。因此，只量化莫得激活的权重对蔓延的影响最小。此外，如图9所示，weight-only quantization需要将低精度权重去量化到FP16，这会导致额外的规划支出，从而降速prefilling。(3)跟着批量大小和输入长度的增多，weight-only quantization的加速程度缓缓减小。这主如果因为，对于更大的批处理大小和输入长度，规划本钱组成了更大比例的蔓延。诚然weight-only quantization主要贬抑了内存探询本钱，但跟着批量大小和输入长度增大，规划需求变得愈加卓绝，它对蔓延的影响变得不那么显赫。(4)由于内存探询支出与模子的参数目限度有关，weight-only quantization为参数限度较大的模子提供了更大的平允。跟着模子的复杂度与尺寸的增长，存储和探询权重所需的内存量也会成比例地增多。通过量化模子权重，weight-only quantization可以灵验地减少内存占用和内存探询支出。

5.2.2 疏淡化（Sparsification）

疏淡化是一种压缩工夫，可以增多数据结构(如模子参数或激活)中零值元素的比例。该方法通过在规划过程中灵验地忽略零元素来贬抑规划复杂度和内存占用。在应用到大模子中时，疏淡化平方应用于权重参数和防备力激活。这导致了权值修剪计谋和疏淡防备力机制的发展。

权重修剪（Weight Pruning）：权值修剪系统地从模子中去除不太重要的权值和结构，旨在减少预填充阶段息争码阶段的规划和内存本钱，而不会显赫影响性能。这种疏淡化方法分为两种主要类型：非结构化修剪和结构化修剪。它们的分类基于修剪过程的粒度，如图10所示。

图片

图10：非结构化修剪和结构化修剪

非结构化修剪以细粒度修剪单个权重值。与结构化修剪比较，它平方在对模子展望影响最小的情况下罢了更高的疏淡度。关联词，通过非结构化剪枝罢了的疏淡模式勤恳高等次的规则性，导致不规矩的内存探询和规划模式。这种不规则会严重顽固硬件加速的后劲，因为当代规划架构针对密集、规矩的数据进行了优化。因此，尽管罢了了更高的疏淡度级别，但非结构化剪枝在硬件效用和规划加速方面的践诺平允可能是有限的。

权值修剪的焦点是修剪程序，包括权重重要性和修剪比例。谈判到大模子的参数限度巨大，提高剪枝效用也至关重要。一个修剪准则是最小化模子的重建耗损。SparseGPT是该领域的代表性方法。它解任OBS的想想，谈判去除每个权值对网罗重构耗损的影响。OBS迭代地详情一个剪枝掩模对权值进行剪枝，并重建未剪枝的权值以赔偿剪枝耗损。SparseGPT通过最优部分更新工夫克服了OBS的效用瓶颈，遐想了一种基于OBS重构罪恶的自适当掩码取舍工夫。Prune and Tune通过在修剪过程中使用最少的西宾门径微调大模子来校正SparseGPT。ISC结合OBS和OBD中的显赫性程序遐想了一种新的修剪程序。该算法进一步证据Hessian信息为每一层分派非均匀剪枝比例。BESA通过重构耗损的梯度下落学习一个可微的二值掩码。每一层的剪枝比循序通过最小化重建罪恶来详情。另一种流行的修剪程序是基于大小缺定。Wanda提倡使用权值与输入激活范数之间的元素积看成修剪准则。RIA通过使用相对重要性和激活度的度量来结伴谈判权重和激活度，该度量基于其整个蛊卦的权重来评估每个权重元素的重要性。此外，RIA将非结构化疏淡范式鼎新为结构化N:M疏淡范式，可以在NVIDIA GPU上取得践诺的加速。OWL侧重于详情各层的剪枝比例。它证据激活非常值比率为每一层分派剪枝比率。

与非结构化修剪比较，结构化修剪以更粗的粒度操作，修剪模子中较大的结构单位，例如通盘通说念或层。这些方法径直促进了在传统硬件平台上的推理加速，因为它们与这些系统优化处理的密集、规矩的数据范式保抓一致。关联词，结构化修剪的粗粒度平方会对模子性能产生更明显的影响。这类修剪程序还强制推论结构化修剪模式。LLM-Prune提倡了一种任务不可知的结构化修剪算法。具体来说，它开始证据神经元之间的蛊卦依赖关系识别出大模子中的偶联结构。然后，它证据遐想邃密的组级别的修剪度量来决定要删除哪些结构组。修剪后，进一步提倡通过一个高校参数西宾工夫，如LoRA往来复模子性能。 Sheared LLaMA提倡将原始大模子修剪为现存预西宾大模子的特定办法架构。此外，它遐想了动态批数据加载工夫来普及post-training 性能。

ZipLM迭代地识别和修剪结构组件，在损成仇运行时分之间进行最坏的衡量。LoRAPrune为带有LoRA模块的预西宾大模子提倡了结构化修剪框架，以罢了基于LoRA的模子的快速推理。它遐想了基于LoRA的权值和梯度的由LoRA携带的剪枝准则，并遐想了基于该准则去除不重要权值的迭代剪枝有酌量。LoRAShear还为基于LoRA的大模子遐想了一种修剪方法，该方法聘用(1)图算法来识别最小的去除结构，(2)渐进式结构化剪接算法LHSPG，(3)动态常识回复机制往来复模子性能。SliceGPT[174]基于RMSNorm操作的规划不变性想想。它提倡在每个权值矩阵中对疏淡性进行结构化摆设，并对通盘行或列进行切片。PLATON[提倡通过谈判权重的重要性和不详情趣来修剪权重。它使用重要性分数的指数挪动平均(Exponential Moving Average，EMA)来测度重要性，对不详情趣聘用上置信度界(UCB)。SIMPLE提倡通过学习相应的疏淡掩码来修剪防备头、FFN神经元和狡饰维度。在进行剪枝后，进一步聘用常识精馏对剪枝后的模子进行微调，罢了性能回复。

疏淡防备力（Sparse Attention）：Transformer多头自防备力(MHSA)组件中的疏淡防备工夫可以计谋性地不详某些防备运算，以提高防备运算的规划效用，主如果在预填充阶段。这些机制证据对特定输入数据的依赖程度分为静态和动态两类。

静态疏淡防备力去除了幽静于特定输入的激活值。这些方法事前详情了疏淡的防备力掩码，并在推理过程中将其强加于防备力矩阵。往日的接洽事业结合了不同的疏淡模式来保留每个防备力矩阵中最基本的元素。如图11(a)所示，最常见的疏淡防备力模式是局部和全局防备模式。土产货防备力范式拿获每个token的土产货落魄文，并在每个token周围缔造固定大小的窗口防备。全局防备力范式通过规划和柔和通盘序列中的整个token来拿获特定token与整个其他token之间的有关性。诳骗全局模式可以摒除存储未使用的token的KV对的需要，从而减少了解码阶段的内存探询本钱和内存使用。Sparse Transformer将这些模式结合起来，用土产货模式拿获土产货落魄文，然后每隔几个单词就用全局模式团员信息。StreamingLLM只对前几个token应用土产货模式和全局模式。拆伙标明，这种全局模式看成防备力漕，保抓了对入手符号的强防备得分。它有助于大模子推广到无穷输入序列长度。Bigbird也使用未必模式，其中整个token都参加一组未必token。评释注解了局部模式、全局模式和未必模式的组合可以封装整个连气儿序列到序列的函数，并说明了其图灵完备性。如图11(b)所示，Longformer还引入了推广的滑动窗口模式。它访佛于扩张的CNN，使滑动窗口“扩张”以增多接纳野。为了使模子适当疏淡缔造，Structured sparse Attention提倡一种熵感知的西宾方法，将高概率的防备力值联结到更密集的区域中。与以往手工遐想疏淡模式的接洽不同，SemSA使用基于梯度的分析来识别重要的防备模式，并自动优化防备密度漫衍，进一步提高模子效用。

图片

图11：不同的疏淡防备力掩码例如

比较之下，动态疏淡防备力证据不同的输入自适当地摒除激活值，通过实时监测神经元的激活值来绕过对神经元的影响可以忽略的规划，从而罢了修剪。大多数动态疏淡防备方法聘用动态token修剪方法，如图11(c)所示。Spatten、SeqBoat和Adaptive Sparse Attention诳骗话语结构的固有冗余提倡动态符号级修剪计谋。Spatten通过汇总防备力矩阵列来评估每个单词的积存重要性，并在背面的层中从输入中对具有最小积存重要性的token进行修剪。SeqBoat西宾了一个线性现象空间模子(State Space Model, SSM)，该模子带有一个疏淡的sigmoid函数，以详情每个防备力头需要修剪哪个token。Spatten和SeqBoat都对通盘输入的无信息的token进行了修剪。自适当疏淡防备力在生成过程中缓缓修剪token。它去除了落魄文中，在畴昔生成不再需要的部分。

除了动态token修剪，动态防备力修剪工夫也被应用。如图11(d)所示，这些方法不是修剪某些token的整个防备力值，而是证据输入动态地修剪防备力的取舍部分。在有关事业中，一个较为可以的方法是动态地将输入token分红组，称为桶，并计谋性地不详驻留在单独桶中的token的防备力规划。这些方法的重点在于若何将有关的token聚类在一齐，来促进它们之间的防备力规划，从而提高效用。Reformer诳骗位置明锐的哈希来将分享相易哈希码的key和query联结到并吞个桶中。在此之后，Sparse Flash Attention引入了故意针对这种基于哈希的疏淡防备力机制进行优化的GPU内核，进一步提高了规划效用。同期，Routing Transformer聘用球形k-means聚类算法将token团员到桶中，优化了防备力规划的取舍过程。Sparse Sinkhorn Attention聘用学习排序网罗将key与其有关的query桶对王人，确保仅在相应的query和key对之间规划防备力。与桶级操作不同，H2O引入了token级动态防备力修剪机制。它将静态土产货防备力与刻下query和一组动态象征的key token之间的动态规划结合起来，称作heavy-hitters(H2)。这些 heavy-hitters通过移除计谋进行径态调整，该计谋旨在在每个生成门径中删除最不重要的key，从而灵验地经管heavy-hitter集的大小和有关性。

此外，将每个token视为图节点，将token之间的防备力视为边，可以扩展静态疏淡防备力的视角。原始的全防备力机制等同于一个均匀最短旅途距离为1的完整图。疏淡防备力通过其未必掩码引入未必边，灵验地将恣意两个节点之间的最短旅途距离减小到，从而保抓访佛于王人备防备的高效信息流。Diffuser诳骗图论的视角，通过多跳token关联来扩展疏淡防备的接纳场。它还从扩展图属性中取得灵感，以遐想更好的疏淡模式，以近似全防备力的信息流。

除了防备力级和token级的疏淡性以外，防备力修剪的范围扩展到千般粒度。Spatten还将修剪从token粒度扩展到防备力头粒度，摒除了不必要的防备力头的规划，以进一步减少规划和内存需求。

5.2.3 架构优化（Structure Optimization）

架构优化的办法是从新界说模子的体紧缚构或者架构，以提高模子效用和性能之间的平衡。有关事业中有两种卓绝的工夫：神经结构搜索(Neural Architecture Search, NAS)和低秩明白(Low Rank Factorization, LRF)。

神经结构搜索(Neural Architecture Search)：神经架构搜索(Neural Architecture Search, NAS)旨在自动搜索在效用和性能之间达到最好平衡的最优神经架构。AutoTinyBERT诳骗one-shot神经架构搜索(NAS)来发现Transformer架构的超参数。值得防备的是，它引入了一种引东说念主闪耀的批处理西宾方法来西宾超等预西宾话语模子(SuperPLM)，随后使用进化算法来识别最优子模子。NAS-BERT使用一些改进工夫，如块级别搜索、搜索空间修剪和性能靠近，在传统的自监督预西宾任务上西宾大型超等网罗。这种方法允许NAS-BERT灵验地应用于千般卑劣任务，而不需要多量的从新西宾。通过NAS进行结构剪枝将结构剪枝看成一个多办法NAS问题，通过一次性的NAS方法进行处理。LiteTransformerSearch提倡使用不需要西宾的酌量，例如参数的数目看成代理酌量来指导搜索。这种方法可以灵验地探索和取舍最优的体紧缚构，而不需要在搜索阶段进行践诺的西宾。AutoDistil提倡了一种王人备与任务无关的few-shot NAS算法，该算法具有三种主要工夫：搜索空间分裂、与任务无关的SuperLM西宾和与任务无关的搜索。这种方法的目的是促进跨千般任务的高效体紧缚构发现，并减少特定于任务的调整。平方，NAS算法需要评估每个采样架构的性能，这可能会产生多量的西宾本钱。因此，这些工夫在应用于大模子时具有挑战性。

低秩明白(Low Rank Factorization)：低秩明白(LRF)或低秩明白(Low Rank Decomposition)的目的是用两个低秩矩阵和近似一个矩阵:

其中比和小得多。这么，LRF可以减少内存使用，提高规划效用。此外，在大模子推理的解码阶段，内存探询本钱是解码速率的瓶颈。因此，LRF可以减少需要加载的参数数目，从而加速解码速率。LoRD高慢了压缩大模子的后劲，而不和会过LRF大幅贬抑性能。具体来说，聘用奇异值明白(SVD)对权重矩阵进行因式明白，获胜地将一个包含16B个参数的大模子压缩为12.3B，性能小幅度下落。TensorGPT引入了一种使用Tensor-Train Decomposition来压缩embedding层的方法。每个token embedding都被视为矩阵乘积现象(Matrix Product State, MPS)，并以漫衍式方式高效规划。LoSparse结合了LRF和权值剪枝在LLM压缩中的优点。通过诳骗低秩近似，LoSparse贬抑了径直进行模子修剪平方会丢失太多抒发神经元的风险。LPLR和ZeroQuant-V2都提倡了对权矩阵进行LRF和量化同期压缩的方法。DSFormer提倡将权重矩阵明白为半结构化疏淡矩阵与一个微型密集型矩阵的乘积。ASVD遐想了一个激活感知的奇异值明白方法。该方法包括在应用奇异值明白进行矩阵明白之前，证据激活漫衍缩放权重矩阵。ASVD还包括通过一个搜索进度详情每个层的合适的截断秩。

5.2.4 常识蒸馏（Knowledge Distillation）

常识蒸馏(Knowledge Distillation, KD)是一种老到的模子压缩工夫，其中来振作型模子(称为teacher模子)的常识被挪动到较小的模子(称为student模子)。在大模子的配景下，KD使用原始的大模子看成teacher模子来提真金不怕火较小的大模子。面前好多接洽都辘集在若何灵验地将大模子的千般才能挪动到更小的模子上。在这个领域，方法可以分为两种主要类型：白盒KD和黑盒KD(如图12所示)。

图片

图12：白盒KD（左）与黑盒KD（右）透露图

白盒KD（White-box KD）：白盒KD指的是诳骗对teacher模子的结构和参数的探询的蒸馏方法。这些方法使KD能够灵验地诳骗teacher模子的中间特征和输出概率来增强student模子的性能。MiniLLM聘用程序白盒KD方法，但将正向Kullback-Leibler divergence(KLD)替换为反向KLD。GKD引入了对 on-policy数据的使用，其中包括由student模子自身生成的输出序列，以进一步蒸馏学生模子。该方法侧重于使用这些计谋数据来对王人teacher和student模子之间的输出概率。TED提倡了一种任务感知的层级别的方法，包括结合额外的检索分层KD方法。这种方法包括在teacher和student模子的每一层之后添加过滤器，西宾这些特定任务的过滤器，然后冻结teacher模子的过滤器，在西宾student过滤器以使其输出特征与相应的teacher过滤器对王人时。MiniMoE通过使用夹杂内行(MoE)模子看成student模子来缓解才能差距。对于新出现的实体，预西宾话语模子可能勤恳最新的信息。为了处理这个问题，一种处理有酌量是将额外的检索文本合并到教唆中，尽管这会增多推理本钱。另外，KPTD通过常识蒸馏将常识从实体界说挪动到大模子参数。该方法生成一个基于实体界说的传输集，并索要student模子，以便将输出漫衍与基于这些界说的teacher模子相匹配。

黑盒KD（Black-box KD）：黑盒KD是指teacher模子的结构和参数不可获取的常识蒸馏方法。平方，黑箱KD只使用teacher模子得到的最终拆伙来蒸馏student模子。在大模子领域，黑箱KD主要携带student模子学习大模子的泛化才能和泄露才能，包括InContext Learning (ICL)才能、想维链(Chain-of-Thought, CoT)推理才能和Instruction Following (IF)才能。在ICL才能方面，Multitask-ICT引入了落魄体裁习蒸馏(in-context learning distillation)来挪动大模子的多任务few-shot才能，同期诳骗落魄体裁习和话语建模才能。MCKD不雅察到，从通过语境学习得到的teacher模子中提真金不怕火出来的student模子，在看不见的输入prompt上经常进展优异。基于这一不雅察，MCKD遐想了一个多阶段蒸馏范式，其中使用前阶段的student模子为后续阶段生成蒸馏数据，从而提高了蒸馏方法的灵验性。为了提真金不怕火想维链(CoT)推理才能，诸如 Distilling Step-by-Step、SCoTD、CoT prompt、MCC-KD和Fine-tune-CoT等几种工夫提倡了提真金不怕火方法，将从大模子中索要的反应和基欢跃趣结合起来西宾student模子。 Socratic CoT也将推理才能挪动到较小的模子。具体来说，它对一双student模子进行了微调，即问题生成(QG)模子和问题回答(QA)模子。QG模子被西宾成基于输入问题生成中间问题，指导QA模子生成最终的回答。PaD不雅察到装假的推理(即正确的最终谜底但装假的推理门径)可能对student模子无益。为了处理这个问题，PaD建议生成合成模范用于推理问题，然后由附加的解释器自动检察。这种方法有助于去除带有装假推理的蒸馏数据，提高student模子西宾数据的质料。

5.2.5 动态推理

动态推理波及在推理过程中自适当取舍模子子结构，其以输入数据为要求。此末节重点先容early exiting的工夫，这些工夫使大模子能够证据特定的样本或token在不同的模子层住手其推理。值得防备的是，诚然MoE工夫(在第5.1.1节中征询)也会在推理过程中调整模子结构，但它们平方波及腾贵的预西宾本钱。比较之下，这些工夫只需要西宾一个小模块来详情何时收尾推理。本文将此类接洽分为两大类：样本级别的early exiting和token级别的early exiting(如图13所示)。

图片

图13：token级别和样本级别的动态推理透露图

样本级别：样本级别的early exiting工夫侧重于详情用于单个输入样本的大模子的最好大小和结构。一种常见的方法是在每一层之后使用额外的模块来扩展大模子，诳骗这些模块来决定是否在特定层远隔推理。FastBERT， DeeBERT， MP和MPEE径直西宾这些模块来证据刻下层的特征作念出决策(例如，输出0延续或输出1住手)。Global Past-Future Early Exit提倡了一种方法，诳骗来自前一层和后一层的话语信息丰富这些模块的输入。谈判到在推理过程中不成径直探询畴昔层的特征，论文西宾了一个肤浅的前馈层来测度这些畴昔特征。PABEE西宾模块来看成径直展望的输露面，建议在展望保抓一致时远隔推理。HASHEE聘用了一种非参数决策方法，该方法基于相似样本应在并吞层退出推理的假定。

Token级别：在大模子推理的decodig阶段，循序生成token，token级别的early exiting工夫旨在优化用于每个输出token的大模子的大小和结构。CALM在每个Transformer层之后引入early exit分类器，西宾它们输出置信度分数，以详情是否在特定层住手推理。值得防备的是，在self-attention模块中，规划每层刻下token的特征依赖于并吞层中整个先前token的特征(即KV cache)。为了干事理于先前token early exit而导致KV cache丢失的问题，CALM建议径直将该特征从现存层复制到后续层，实验拆伙高慢唯一幽微的性能下落。SkipDecode处理了先前早期存在的方法的局限性，这些方法顽固了它们对批处理推理和KV cache的适用性，从而限制了践诺的加速增益。对于批处理推理，SkipDecode为批处理中的整个token提倡了一个长入的退出点。对于KV cache，SkipDecode确保了exit point的单调减少，以注意KV缓存的从新规划，从而促进了推理过程中的效用提高。

5.3 意识，建议和畴昔标的

在高效结构遐想方面，寻找替代Transformer的结构是一个新兴的接洽领域。例如，Mamba、RWKV过火各自的变种在千般任务中进展出了竞争力，比年来引起了越来越多的柔和。关联词，探员这些非Transformer模子与Transformer模子比较是否会进展出某些缺点仍然是有关的。同期，探索非transformer架构与防备力操作的集成是畴昔另一个有但愿的接洽标的。

在模子压缩领域，量化看成在大模子部署中使用的主要方法脱颖而出，主如果由于两个重要要素。开始，量化提供了一种陋劣的压缩大模子的方法。例如，使用Post-Training Quantization(PTQ)方法可以在几分钟内将具有70亿个参数的大模子的参数数分钟内减少到压缩时局。其次，量化具有罢了内存耗损和推理速率大幅贬抑的后劲，同期只引入了很小的性能折损。对于好多践诺应用，这种折损平方被以为是可以接纳的。关联词，值得防备的是，量化仍然可能会损伤大模子的某些突发才能，例如自校准或多步推理。此外，在处理长落魄文等特定场景中，量化可能导致显赫的性能下落。因此，在这些特殊情况下，需要仔细取舍得当的量化方法来收缩这种退化的风险。多量文件接洽了疏淡防备力工夫在长落魄文处理中的应用。例如，最近的一项代表性事业StreamingLLM仅通过回复几个防备力汇token就可以处理400万个token。尽管如斯，这些方法经常会遗弃重要信息，从而导致性能下落。因此，在灵验经管长落魄文的同期保留基本信息的挑战仍然是畴昔探索的一个重要领域。至于权值修剪工夫，LLM-KICK指出，即使在相对较低的疏淡度比下，刻下起初进的(SOTA)方法也会出现非常大的性能下落。因此，开发灵验的权值修剪方法来保抓大模子性能仍然是一个新兴和重要的接洽标的。

模子结构的优化平方波及使用神经结构搜索(NAS)，这平方需要多量的规划资源，这对其在压缩大模子中的践诺应用组成了潜在的阻隔。因此，有关接洽聘用自动结构优化进行大模子压缩的可行性值得进一步探索。此外，像低秩明白(LRF)这么的工夫在压缩比和任务性能之间罢了最好平衡仍然是一个挑战。例如，ASVD在不影响大模子推理才能的情况下，只可罢了摆布的10%到20%的压缩比。

除了聘用单独的模子压缩工夫外，一些接洽还探索了不同方法的组合来压缩大模子，诳骗各自的上风来提高效用。例如，MPOE将权重矩阵明白故意应用于基于MoE的大模子中的内行前馈网罗(FFNs)，目的是进一步贬抑内存需求。LLM-MQ诳骗权值疏淡性工夫在模子量化过程中保护权值非常值，从而最大限制地减小数化罪恶。LPLR侧重于量化低秩明白权重矩阵，以进一步贬抑大模子推理过程中的内存占用和内存探询本钱。此外，LoSparse将低秩明白与权值剪枝相结合，诳骗剪枝增强低秩近似的千般性，同期诳骗低秩明白保留重要权值，注意重要信息丢失。这些方法强调了集成多种压缩工夫以更好地优化大模子的后劲。

6 系统级别优化

大模子推理的系统级优化主要波及增强模子前向传递。谈判到大模子的规划图，存在多个算子，其中防备力算子和线性算子占据了大部分的运行时分。如2.3节所述，系统级优化主要谈判大模子中防备算子息争码方法的特有特征。非常是，为了处理大模子解码方法的具体问题，线性算子需要特殊的平铺遐想，推测解码方法也被提倡以提高诳骗率。此外，在在线服务的落魄文中，苦求平方来自多个用户。因此，除了前边征询的优化以外，在线服务还濒临着与异步苦求引起的内存、批处理和调治有关的挑战。

6.1 推理引擎

面前对推理引擎的优化主要在于加速模子上前推理过程。对大模子推理中的主要算子和规划图进行了高度优化。此外，为了在不贬抑性能的前提下提高推理速率，推测解码工夫也被提倡。

6.1.1 图和规划优化

运行时分分析：通过HuggingFace，作家用不同的模子和落魄文长度来分析推理运行时分。图15的分析拆伙标明，防备力规划和线性规划占据了运行时分的绝大部分，它们平方逾越推理抓续时分的75%。因此，大部分优化事业都致力于提高两个操作的性能。此外，有多个操作符占用了一小部分运行时分，这使得操作符的推论时分一鳞半瓜，增多了CPU端的内核启动本钱。为了处理这个问题，在图规划级别，刻下优化的推理引擎罢了了高度贯通的算子。

防备力规划优化：程序的防备力规划(例如，使用Pytorch)包含矩阵Q与矩阵(K)的乘法，这导致时分和空间复杂度与输入序列长度呈现二次增长。如图15所示，防备力规划操作的时分占比跟着落魄文长度的增多而增多。这意味着对内存大小和规划才能的要求很高，非常是在处理长序列时。为了处理GPU上程序防备力规划的规划和内存支出，定制化防备力规划是必不可少的。FlashAttention将通盘防备力操作贯通为一个单一的、内存高效的操作，以收缩内存探询支出。输入矩阵(Q, K, V)和防备力矩阵被平铺成多个块，从而摒除了完整数据加载的需要。FlashDecoding修复在Flash Attention的基础上，旨在最大限制地提高解码的规划并行性。由于译码方法的应用，Q矩阵在decoding过程中会退化为一批向量，如果并行度仅限于batch大小维度，则很难填充规划单位。FlashDecoding通过在序列维度上引入并行规划来处理这个问题。诚然这会给softmax规划带来一些同步支出，但它会显赫提高并行性，非常是对于小批量大小和长序列。随后的事业FlashDecoding++不雅察到，在之前的事业中，softmax内的最大值仅看成注意数据溢出的比例因子。关联词，动态最大值会导致显赫的同步支出。此外，多量实验标明，在典型的大模子(如Llama2， ChatGLM)中，逾越99.99%的softmax输入在一定范围内。因此，FlashDecoding++提倡基于统计数据提前详情比例因子。这摒除了softmax规划中的同步支出，使后续操作能够在softmax规划的同期并行推论。

线性规划优化：线性算子在大模子推理、特征投影和前馈神经网罗(FFN)中阐明留意要作用。在传统神经网罗中，线性算子可以抽象为通用矩阵-矩阵乘法(General Matrix-Matrix Multiplication, GEMM)运算。关联词，对于大模子，decoding方法的应用导致维度的明显贬抑，与传统的GEMM事业负载不同。传统GEMM的底层罢了得到了高度优化，主流大模子推理框架(例如，DeepSpeed , vLLM, OpenPPL等)主要调用cuBLAS为线性算子提供的GEMM API接口。

如果莫得针对贬抑维数的GEMM明详情制的罢了，decoding过程中的线性规划将会效用低下。在最新版块的TensorRT-LLM中可以不雅察到处理该问题的issue。它引入了专用的通用矩阵向量乘法(General Matrix-Vector Multiplication, GEMV)罢了，潜在地提高了decoding门径的效用。最近的接洽FlashDecoding++作念了进一步的校正，在解码门径中处理小批量数据时，处理了cuBLAS和CUTLASS库的低效用问题。该接洽的作家开始引入了FlatGEMM操作的观念，以高度贬抑的维度(FlashDecoding++中的维数< 8)来透露GEMM的事业负载。由于FlatGEMM具有新的规划秉性，传统GEMM的平铺计谋需要进行修改。作家不雅察到，跟着事业负载的变化，存在两个问题：低并行性和内存探询瓶颈。

为了处理这些问题，FlashDecoding++聘用了细粒度平铺计谋来提高并行性，并诳骗双缓冲工夫来狡饰内存探询蔓延。此外，刻下经典大模子(例如，Llama2, ChatGLM)中的线性操作平方具有固定的体式，FlashDecoding++修复了启发式取舍机制。这个机制证据输入大小在不同的线性运算符之间进行径态地取舍鼎新。这些选项包括FastGEMV、FlatGEMM和由cuBLAS库提供的GEMM。这种方法确保为给定的线性事业负载取舍最灵验的规划操作，从而可能导致更好的端到端性能。

比年来，应用MoE FFN来增强模子才能已成为大模子接洽的一种趋势。这种模子结构也对算子优化提倡了新的要求。如图15所示，在具有MoE FFN的Mixtral模子中，由于HuggingFace罢了中未优化FFN规划，线性算子在运行时占主导地位。此外，Mixtral聘用了GQA防备结构，其贬抑了防备力算子的运行时分比例，进一步指出了对优化FFN层进攻需要。MegaBlocks是第一个针对MoE FFN层优化规划的算法。该事业将MoE FFN规划制定为块疏淡操作，并提倡了用于加速的定制GPU内核。MegaBlocks专注于MoE模子的灵验西宾，因此忽略了推理的特征(例如，解码方法)。现存框架正在竭力优化MoE FFN推理阶段的规划。vLLM的官方在Triton中集成了MoE FFN的贯通内核，无缝地摒除了索引支出。

图片

图14：大模子推理引擎优化分类

图片

图15：多个大模子的推理运行时分分析

图级别的优化：核贯通看成一种流行的图级优化脱颖而出，因为它能够减少运行时分。应用核贯通有三个主要优点：(1)减少内存探询。贯通内核从实质上摒除了中间拆伙的内存探询，收缩了规划操作的内存瓶颈。(2)收缩内核启动支出。对于一些轻量级操作(如残差add)，内核启动时分占据了大部分蔓延，内核贯通减少了单个内核的启动。(3)增强并行性。对于那些没特地据依赖的运算符，当单个内核推论无法填充硬件容量时，通过贯通罢了内核并行是有利的。

核贯通工夫被评释注解对大模子推理是灵验的，具有上述整个优点。FlashAttention将防备力运算符表述成一个单一的内核，摒除了探询防备力拆伙的支出。基于防备力算子是内存有限的这一事实，内存探询的减少能灵验地涟漪为运行时加速。ByteTransformer和DeepSpeed提倡将包括残差加法、层模和激活函数在内的轻量级算子贯通到前哨性算子中，以减少内核启动支出。

和DeepSpeed[236]提倡将包括残差add、layernorm和激活函数在内的轻量级算子贯通到前边的线性算子中，以减少内核启动支出。因此，这些轻量级操作符在时分轴上消释，险些莫得额外的蔓延。此外，还聘用核贯通来提重大模子推理的诳骗率。Q、K和V矩阵的投影变换原来是三个单独的线性运算，并贯通成一个线性运算符部署在当代GPU上。面前，核贯通工夫也曾应用于大模子推理实践中，高度优化的推理引擎在运行时只使用少数贯通核。例如，在FlashDecoding++罢了中，一个transformer块仅集成了七个贯通的内核。诳骗上述运算符和内核贯通优化，FlashDecoding++罢了了在HuggingFace高达4.86倍的加速。

6.1.2 推测解码

推测解码（如投契采样）是一种用于自转头大模子的改进解码工夫，旨在提高解码效用，同期不影响输出的质料。这种方法的中枢想想包括使用一个较小的模子(称为草稿模子)来灵验地展望几个后续token，然后使用办法大模子并行考据这些展望。该方法旨在使大模子能够在单个推理平方所需的时分范围内生成多个token。图16高慢了传统自转头解码方法与推测解码方法的比较。表面上，推测解码方法包括两个门径：

1)草稿构建：聘用草稿模子，以并行或自转头的方式生成多个后续token，即Draft token。 2)草案考据：诳骗办法模子在单个大模子推理门径上钩算整个草稿token的要求概率，随后循序详情每个草稿token的接纳程度。接纳率透露每个推理门径接纳的草稿token的平均数目，是评估推测解码算法性能的重要酌量。

图片

图16：自转头解码（a）和推测解码（b）对比

推测解码确保了输出与自转头解码方法的质料平等。传统解码工夫主要使用两个采样方法：greedy sampling和 nucleus sampling。greedy sampling波及在每个解码门径中取舍概率最高的令牌来生成特定的输出序列。推测解码的领先事业，被称为Blockwise Parallel Decoding，旨在确保草草稿token与通过greedy sampling的token罢了精准匹配，从而保抓输出令牌等价。比较之下，nucleus sampling波及从概率漫衍中抽样token，每次运行都会产生不同的token序列。这种千般性使得nucleus sampling很受宽宥。为了在推测解码框架内容纳nucleus sampling，也曾提倡了投契采样工夫。投契采样保抓输出漫衍不变，与nucleus sampling的概恣意质一致，以产生不同的符号序列。时局上，给定一个token序列和一个草稿token序列，投契采样计谋以以下概率接纳第i个草稿token：

其中庸分别代表来自办法大模子和草稿模子的概率漫衍。如果第个token被接纳，它设定为。另外，它退出草稿token的考据，并从底下的漫衍中进行的重采样：

基于投契采样，出现了几种变体，旨在考据多个草稿token序列。值得防备的是，在这种情况下，token tree verfier已成为一种等闲聘用的考据计谋。这种方法诳骗草稿token集的树状结构透露，并聘用树防备力机制来灵验地推论考据过程。

在推测解码方法中，草稿token的接纳率受到草稿模子的输出漫衍与原始大模子的输出漫衍的一致程度的显赫影响。因此，多量的接洽事业都是为了校正草稿模子。DistillSpec径直从办法大模子中索要较小的草稿模子。SSD包括从办法大模子中自动识别子模子(模子层的子集)看成草稿模子，从而摒除了对草稿模子进行单独西宾的需要。OSD动态调整草稿模子的输出漫衍，以匹配在线大模子服务中的用户查询漫衍。它通过监视来振作模子的被拒却的草稿token，并使用该数据通过蒸馏来校正草稿模子来罢了这一丝。PaSS提倡诳骗办法大模子自身看成草稿模子，将可西宾的token(look -ahead token)看成输入序列，以同期生成后续token。REST引入了一种基于检索的推测解码方法，聘用非参数检索数据存储看成草稿模子。SpecInfer引入了一种集体普及调优工夫来对王人一组草稿模子的输出漫衍通过办法大模子。Lookahead decoding 包含大模子生成并行的生成n-grams来生成草稿token。Medusa对大模子的几个头进行微调，故意用于生成后续的草稿token。Eagle聘用一种称为自转头头的轻量级Transformer层，以自转头的方式生成草稿token，将办法大模子的丰富落魄文特搜集成到草稿模子的输入中。

另一项接洽侧重于遐想更灵验的草稿构建计谋。传统的方法平方产生单一的草稿token序列，这对通过考据提倡了挑战。对此，Spectr主张生成多个草稿token序列，并聘用k-sequential草稿取舍工夫并发考据k个序列。该方法诳骗推测抽样，确保输出漫衍的一致性。访佛地，SpecInfer聘用了访佛的方法。关联词，与Spectr不同的是，SpecInfer将草稿token序列合并到一个“token tree”中，并引入了一个用于考据的树形防备力机制。这种计谋被称为“token tree verifier”。由于其灵验性，token tree verifier在稠密推测解码算法中被等闲聘用。除了这些竭力以外，Stage Speculative Decoding和Cascade Speculative Drafting(CS Drafting)建议通过将投契解码径直集成到token生成过程中来加速草稿构建。

对比实验与分析：论文作家通过实验来评估推测解码方法的加速性能。具体来说，作家对该领域的接洽进行了全面的回想，并取舍了其中6个也曾开源的代码进行接洽，分别是：Speculative Decoding (SpD)、Lookahead Decoding (LADE)、REST、Self-speculative Decoding (SSD)、Medusa和Eagle。对于评估数据集，使用Vicuna-80对上述方法进行评估，该数据集包含80个问题，分为10类。这80个问题的平均拆伙看成输出。对于办法大模子，作家聘用了五个主流的开源大模子，分别是Vicuna-7B-V1.3、Vicuna-13B-V1.3、Vicuna-33B-V1.3、LLaMA-2-7B和LLaMA-2-13B。作家展示了这5个大模子的评测度划范围。对于草稿模子，作家对SpD聘用了两个个西宾好的草稿模子，即LLaMA-68M和LLaMA-160M。对于其他推测解码方法，作家解任它们提倡的草稿构建方法和使用他们提供的权重。在评价酌量方面，作家使用接纳率和加速率，接纳率是指接纳token数与生成步数之比，加速比是指在详情输出总长度时，原始自转头解码的蔓延与推测解码的蔓延之比。

表5提供了千般推测解码方法的比较，卓绝了几个重要不雅察拆伙：(1) Eagle进展出优异的性能，在多个大模子上罢了了3.47~3.72倍的端到端加速。为了蛊卦它的获胜，作家对Eagle的潜入分析揭示了两个重要要素。开始，Eagle聘用自转头方法来解码草稿token，径直诳骗先前生成的token的信息。其次，Eagle集成了原始大模子和草案模子的先前token的丰富特征，以提高下一个草稿token生成的准确性。(2) token tree verifier被评释注解在普及投契采样方法的性能中是灵验的。(3)这些方法罢了的端到端加速经常低于接纳率。这种各异是由于与草稿模子有关的生成本钱不可薄情的践诺谈判而产生的。

图片

表5：实验拆伙6.2 推理服务系统

推理服务系统的优化主要在于提高处理异步苦求的效用。优化了内存经管以容纳更多的苦求，并集成了高效的批处理和调治计谋以提高系统微辞量。此外，提倡了针对漫衍式系统的优化方法，以充分诳骗漫衍式规划资源。

图片

图17：推理服务系统分类图6.2.1内存经管

在大模子服务中，KV缓存的存储决定了内存的使用，非常是当落魄文长度很万古(参见第2.3节)。由于生成长度不详情，提前分派KV cache存储空间很难。早期的罢了平方证据每个苦求的预设最大长度事前分派存储空间。然而，在远隔苦求生成的时，这种方法会导致存储资源的多量糜费。为了处理这个问题，为了减少预分派空间的糜费，提倡了为每个苦求展望生成长度的上界。

然而，当不存在如斯大的连气儿空间时，静态的KV缓存分派方式仍然是失败的。为了草率碎屑化存储，vLLM提倡以操作系统的方式，以分页的方式存储KV缓存。vLLM开始分派尽可能大的内存空间，并将其平均分裂为多个物理块。当苦求驾临时，vLLM以不连气儿的方式动态地将生成的KV缓存映射到预分派的物理块。通过这种方式，vLLM显赫减少了存储碎屑，并在大模子服务中罢了了更高的微辞量。在vLLM的基础上，LightLLM使用了更细粒度的KV缓存存储，减少了不规矩规模产生的糜费。LightLLM将token的KV缓存看成一个单位来处理，而不是一个块，因此生成的KV缓存老是使预分派的空间饱和。

刻下优化的推理服务系统平方聘用这种分页方式来经管KV缓存存储，从而减少冗余KV缓存的糜费。关联词，分页存储导致防备力操作中的内存探询不规矩。对于使用分页KV缓存的防备力算子，这就需要谈判KV缓存的假造地址空间与其对应的物理地址空间之间的映射关系。为了提高防备力算子的规划效用，必须对KV缓存的加载模式进行调整，以陋劣连气儿存储器探询。例如，在vLLM的PagedAttention中，对于K cache，head大小维度的存储结构为16字节的连气儿向量，而FlashInfer为KV缓存编排了千般数据布局，并伴跟着得当遐想的内存探询有酌量。防备力算子的优化与页面KV缓存存储的结合仍然是推理服务系统发展中的一个前沿挑战。

6.2.2 连气儿批处理

批处理中的苦求长度可能不同，当较短的苦求完成而较长的苦求仍在运行时，会导致诳骗率较低。由于服务场景中的苦求具有异步秉性，因此缓解这种低诳骗率的时分段是有可能的。基于此，连气儿批处理工夫被提倡，以便在一些旧苦求完成后对新苦求进行批处理。ORCA是在大模子服务端第一个这么作念的事业。

每个苦求的规划包含多个迭代，每个迭代透露预填充门径或解码门径。作家建议可以在迭代级别对不同的苦求进行批处理。此事业在线性操作符中罢了迭代级批处理，在序列维度中将不同的苦求蛊卦在一齐。因此，与完成的苦求相对应的备用存储和规划资源被实时开释。继ORCA之后，vLLM将该工夫扩展到防备力规划，使不同KV缓存长度的苦求能够批处理在一齐。Sarathi、DeepSpeed-FastGen和SarathiServe进一步引入了一种split-and-fuse方法，将预填充请乞降解码苦求批处理在一齐。具体来说，此方法开始在序列维度上拆分长预填充苦求，然后将其与多个短解码苦求批处理在一齐。该方法平衡了不同迭代之间的事业负载，并通过摒除新苦求的蔓延显赫减少了尾部蔓延。LightLLM也聘用了split-and-fuse方法。

6.2.3 Scheduling工夫

在大模子服务中，每个苦求的功课长度具有可变性，因此推论苦求的顺次会显赫影响服务系统的微辞量。head-of-line blocking发生在长苦求被赋予优先级时。具体来说，对于长苦求，内存使用会赶快增长，当系统内存容量耗尽时，会导致后续苦求受阻。ORCA和开源框架，包括vLLM和LightLLM，聘用肤浅的先到先服务(FCFS)原则来调治苦求。DeepSpeed-FastGen则优先谈判解码苦求以提高性能。FastServe提倡了一种霸占式调治计谋来优化列队防碍问题，罢了大模子服务的低功课完成时分(JCT)。FastServe聘用多级反馈部队(MLFQ)来优先处理剩余时分最短的苦求。由于自动转头解码方法会产生未知的苦求长度，FastServe开始展望长度，并诳骗跳过蛊卦方式为每个苦求找到得当的优先级。与以往的事业不同，VTC征询了大模子推理服务中的公说念性。VTC引入了一个基于token数的本钱函数来计算客户端之间的公说念性，并进一步提倡了一个公说念调治模范来确保公说念性。

6.2.4 漫衍式系统

为了罢了高微辞量，大模子服务平方部署在漫衍式平台上。最近的事业还侧重于通过诳骗漫衍式特征来优化此类推理服务的性能。值得防备的是，预填充是规划密集型的，解码是内存密集型的，splitwise， TetriInfer和DistServe评释注解了明白苦求的预填充息争码门径的效用。这么，两个不同的阶段就可以证据各自的秉性进行幽静的处理。SpotServe遐想用于在具有可霸占GPU实例的云上提供大模子服务。SpotServe灵验地处理包括动态并行摆布和实例迁徙在内的挑战，况且还诳骗大模子的自转头秉性来罢了token级别的现象回复。此外，Infinite-LLM将vLLM中的分页KV缓存方法扩展到漫衍式云环境。

6.3 硬件加速器遐想

往日的接洽事业辘集在优化Transformer架构，非常是优化防备力算子，平方聘用疏淡方法来促进FPGA部署。与NVIDIA V100 GPU比较，FACT加速器通过线性运算的夹杂精度量化和算法-硬件协同遐想罢了了非凡的能效，而且这些方法不是为生成式大模子量身定制的。

近期的事业，如ALLO卓绝了FPGA在经管内存密集型解码阶段方面的上风。强调了模子压缩工夫对大模子高效FPGA部署的重要性。相背，DFX侧重于解码阶段优化，但劳作模子压缩方法，限制了可扩展性在更大的模子和更长的输入(最多1.5B模子和256个token)。ALLO修复在这些见地的基础上，进一步提供了一个可组合和可重用的高级合成(High-level Synthesis, HLS)内核库。与DFX比较，ALLO的罢了在预填充阶段展示了非凡的生成加速，在解码时间罢了了比NVIDIA A100 GPU更高的能效和加速。

FlightLLM也诳骗了这些见地，引入了一个可设立的疏淡数字信号处理器(DSP)链，用于千般具有高规划效用的疏淡模式。为了提高存储带宽诳骗率，提倡了一种支抓夹杂精度的片上译码有酌量。FlightLLM在Llama2-7B型号上罢了了比NVIDIA V100S GPU高6.0倍的能效和1.8倍的本钱效益，解码时的微辞量比NVIDIA A100 GPU高1.2倍。

6.4 大模子推理框架对比

作家对比了多个推理框架的性能，如表6所示。使用Llama2-7B(batch size=1，输入长度=1k，输出长度=128)测量推理微辞量。推理服务性能是在ShareGPT数据集上测量的最大微辞量。两者都基于单个NVIDIA A100 80GB GPU。在上述框架中，DeepSpeed、vLLM、LightLLM和TensorRT-LLM集成了推理服务功能，为来自多个用户的异步苦求提供服务。作家还在表格中列出了每个框架的优化。作家还在表中列出了针对每个框架的优化。除了HuggingFace外，整个框架都罢了了operator级别或图优化级别的优化以提高性能，其中一些框架还支抓推测解码工夫。请防备，作家测量整个框架的推感性能时，莫得使用推测解码工夫。推理微辞量的拆伙标明，FlashDecoding++和TensorRT-LLM在覆盖主要算子和规划图的优化方面优于其他算法。在推理服务方面，各框架均聘用细粒度、不连气儿存储方式进行KV缓存，并聘用连气儿批处理工夫提高系统诳骗率。与vLLM和LightLLM不同，DeepSpeed在调治中优先谈判解码苦求，这意味着如果批处理中有富足的现存解码苦求，则不会合并新苦求。

图片

表6：开源推理框架性能对比6.5 意识，建议和畴昔标的

系统级优化在不贬抑精度的同期提高了效用，因此在大模子推理实践中越来越宽绰。对推理的优化也适用于服务。最近，operator优化也曾与践诺服务场景致密结合，例如，故意为前缀缓存遐想的RadixAttention和加速推测解码考据的tree attention。应用和场景的迭代将约束对operator的发展提倡新的要求。

谈判到践诺推理服务系统中固有的多方面办法，例如JCT、系统微辞量和公说念性，调治计谋的遐想相应地变得复杂。在苦求长度不详情的大模子服务领域，现存文件平方依赖于展望机制来促进调治计谋的遐想。关联词，面前的展望器的灵验性够不上假想的程序，这标明在服务调治计谋开发中存在校正和优化的后劲。

7 重要应用场景征询

面前的接洽在探索跨千般优化级别的高效大模子推理的规模方面取得了要紧进展。关联词，需要进一步的接洽来提重大模子在践诺场景中的效用。作家为数据级(第4.3节)、模子级(第5.3节)和系统级(第6.5节)的优化工夫分析了有但愿的畴昔标的。在本节中，作家总结了四个重要场景：Agent and Multi-Model Framework、Long-Context LLMs、Edge Scenario Deployment和安Security-Efficiency Synergy，并对它们进行了更等闲的征询。

Agent and Multi-Model Framework：如4.3章所征询，Agent 和Multi-Model框架的最近事业，通过诳骗大模子的强劲才能，显赫提高了Agent处理复杂任务和东说念主类苦求的才能。这些框架在增多大模子规划需求的同期，在大模子输出内容的结构中引入了更多的并行性，从而为数据级和系统级优化(如输出组织工夫)创造了契机。此外，这些框架当然地引入了一个新的优化级别，即pipeline级别，它具有在该级别上提高效用的后劲。

此外，越来越多的接洽趋势侧重于将AI智能体扩展到多模态领域，平方使用多模态大模子(Large multimodal Models, LMM)看成这些Agent系统的中枢。为了提高这些新兴的基于LMM的智能体的效用，为LMM遐想优化工夫是一个很有出路的接洽标的。

Long-Context LLMs：面前，大模子濒临着处理越来越长的输入落魄文的挑战。关联词，自防备力操作(Transformer-style大模子的基本组成部分)进展出与落魄文长度有关的二次复杂度，对最大落魄文长度施加了限制在西宾和推理阶段。千般计谋也曾被探索了来处理这一限制，包括输入压缩(第4.1节)、疏淡防备力(第5.2.2节)、低复杂度结构的遐想(第5.1.3节)和防备算子的优化(第6.1.1节)。值得防备的是，具有次二次或线性复杂性的非transformer架构(第5.1.3节)最近引起了接洽东说念主员的极利害思。

尽管它们效用很高，但与Transformer架构比较，这些新架构在千般才能(如落魄体裁习才能和良友建模才能)上的竞争力仍有待检察。因此，从多个角度探索这些新架构的功能并处理它们的局限性仍然是一个有价值的追求。此外，为千般场景和任务详情必要的落魄文长度，以及详情将看成畴昔大模子基础撑抓的下一代架构，这一丝至关重要。

Edge Scenario Deployment：尽管提重大模子推理的效用也曾有了好多事业，但将大模子部署到资源极其有限的角落开发(如挪动电话)上仍然存在挑战。最近，好多接洽东说念主员对具有1B ~ 3B参数的较小话语模子的预西宾进展出了意思。这种限度的模子在推理过程中提供了更少的资源本钱，况且与更大的模子比较，具有罢了泛化才能和竞争性能的后劲。关联词，开发如斯高效和强劲的微型话语模子的方法仍然莫得得到充分的探索。

一些接洽也曾开启了这个有但愿的标的。例如，MiniCPM通过沙盒实验来详情最优的预西宾超参数。PanGu-π-Pro建议使用来自模子修剪的矩阵和工夫来入手化预西宾打磨谢谢的模子权重。MobileLLM在微型模子遐想中聘用了“深而薄”的架构，并提倡了跨不同层的权重分享，在不增多额外内存本钱的情况下增多层数。关联词，小模子和大模子之间仍存在性能差距，需要畴昔的接洽来缩小这一差距。畴昔，进攻需要接洽若何识别角落场景下的模子模范，并探索千般优化方法在遐想上的规模。

除了遐想较小的模子以外，系统级优化为大模子部署提供了一个有出路的标的。最近一个值得防备的状貌，MLC-LLM获胜地在挪动电话上部署了LLaMA-7B模子。MLC-LLM主要使用贯通、内存遐想和轮回优化等编译工夫来增强蔓延并贬抑推理时间的内存本钱。此外，聘用云角落配合工夫或遐想更复杂的硬件加速器也可以匡助将大模子部署到角落开发上。

Security-Efficiency Synergy：除了任务性能和效用外，安全性亦然大模子应用中必须谈判的重要要素。面前的接洽主要辘集在效用优化方面，莫得充分处理安全谈判的操作。因此，接洽效用和安全性之间的相互作用，并详情刻下的优化工夫是否会损伤大模子的安全性是至关重要的。如果这些工夫对大模子的安全性产生负面影响，一个有但愿的标的是开发新的优化方法或校正现存的方法，以罢了大模子的效用和安全性之间更好的衡量。

8 总结

高效的大模子推理侧重于减少大模子推理过程中的规划、内存探询和内存本钱，旨在优化诸如蔓延、微辞量、存储、功率和动力等效用酌量。作家在本综述中提供了高效大模子推理接洽的全面回想，提倡了重要工夫的见地，建议和畴昔标的。开始，作家引入了包含数据级、模子级和系统级优化的分层分类法。随后，在这一分类方法的指导下，作家总结每个档次和子领域的接洽。对于模子量化和高效服务系统等老到的工夫，作家进行了实验来评估和分析它们的性能。在此基础上，提倡了实践建议。为该领域的从业者和接洽东说念主员提倡建议并详情有出路的接洽门路。

备注：昵称-学校/公司-标的/会议(eg.ACL)，干涉工夫/投稿群

id：DLNLPer91 麻豆，难忘备注呦

本站仅提供存储服务，整个内容均由用户发布，如发现存害或侵权内容，请点击举报。

上一篇：露出户外垂直升降料箱柜有哪些上风

下一篇：白丝 jk 好意思法官将特朗普“封口费”案判决日历推迟至11月26日