边缘智能的新时代:端侧大模型的研究进展综述

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

1序言:边缘智能的新纪元

在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领着技术进步的新浪潮。自2017年Transformer架构的诞生以来,我们见证了从OpenAI的GPT系列到Meta的LLaMA系列等一系列模型的崛起,它们不仅在技术层面上不断刷新我们对机器理解与生成人类语言能力的认知,更在实际应用中展现出巨大的潜力和价值。

然而,这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了LLMs的广泛应用和用户的即时体验。正因如此,将LLMs部署在端侧设备上的探索应运而生,它不仅能够提供更快的响应速度,还能在保护用户隐私的同时,实现个性化的用户体验。

随着技术的不断进步,边缘AI市场的全球规模正以惊人的速度增长。预计从2022年的152亿美元增长到2032年的1436亿美元,这一近十倍的增长不仅反映了市场对边缘AI解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,边缘AI技术将发挥越来越重要的作用。

图1:2022年至2032年按终端用户划分的端侧AI全球市场规模(单位:十亿美元)。

在这样的背景下,本综述文章深入探讨了在边缘设备上部署LLM的策略和进展。我们将详细分析模型压缩技术、能效计算策略以及轻量级模型架构的创新设计。此外,文章还将讨论硬件加速策略、边缘-云协同部署方法,并重点介绍在边缘场景中有效利用LLM的部署策略,以及这些技术在行业中的应用实例和带来的益处。

通过本综述,我们希望为读者提供一份关于如何在端侧设备上部署和优化LLMs的全面指南,同时指出当前研究的方向和面临的挑战,为未来的技术发展提供参考和启示。我们相信,通过跨学科的共同努力,我们能够实现智能计算的普及。

图2:本篇综述结构

2技术进展:探索端侧LLMs部署

在人工智能的浪潮中,端侧大型语言模型(On-DeviceLLMs)正以其迅猛的发展速度和广泛的应用前景,成为技术革新的新宠。自2023年起,随着参数量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌现,我们见证了LLMs在边缘设备上运行的可行性和重要性。这些模型不仅在性能上取得了长足的进步,更通过混合专家、量化和压缩等技术,保持了参数量的优化,为边缘设备的多样化应用场景提供了强大支持。

进入2024年,新模型的推出愈发密集,如图3所示,NexaAI的Octopus系列、Google的Gemma系列等,它们不仅在文本处理上有所增强,更在多模态能力上展现了新的可能性,如结合文本与图像等多模态输入,以适应更复杂的用户交互需求。

图3:on-deviceLLM的演进,展示了自2023年以来的重要模型和发展里程碑。

然而,要在资源受限的设备上部署这些强大的模型,我们必须面对内存和计算能力的双重挑战。研究者们通过量化感知缩放、稀疏更新等创新方法,有效解决了这些问题,使得大型模型即便在参数量巨大的情况下,也能在设备端高效运行。

相较于完全依赖云端的LLM服务,端侧推理的优势显而易见。它不仅减少了数据传输的延迟,更保护了用户数据的隐私安全。图4的投票分布显示,大多数参与者更倾向于边缘云协作的架构,对现有仅云端的解决方案并不满意。端侧推理的低延迟特性,尤其适用于需要实时响应的应用场景,如Google的GeminiNano支持的TalkBack功能,即便在完全离线的情况下也能正常工作。

图4:用户对不同LLM部署方式的偏好情况

衡量端侧LLMs性能的指标包括延迟、推理速度、内存消耗等。这些指标直接关系到模型在边缘设备上的实际运行效果,以及用户的使用体验。随着技术的不断成熟,我们期待这些性能指标能得到进一步的优化,使得端侧大语言模型能在更多场景下发挥其潜力。

3架构创新:优化边缘设备的性能

在智能手机和边缘设备上部署大型语言模型(LLMs)正成为人工智能领域的新挑战。面对有限的内存和计算能力,研究者们提出了一系列创新的架构设计原则和方法,旨在实现资源的高效利用和性能的最大化。架构创新变得尤为关键,其中包括参数共享、模块化设计以及紧凑的表示形式。例如,MobileLLM通过深度和瘦长的模型结构优化了参数量在十亿以下的模型,而EdgeShard框架则通过边缘云协作计算实现了模型的分布式处理,显著降低了延迟并提高了吞吐量。

同时,模型压缩与参数共享技术的应用,如AWQ方法和MobileLLM,不仅减少了模型尺寸,还在保持性能的同时加快了推理速度。这些技术通过保护关键权重和优化模型结构,为LLMs在端侧的部署提供了新的可能性。协作和层次化模型方法通过分散计算负载和利用不同能力模型的组合,解决了资源受限设备的部署难题。EdgeShard和LLMCad的研究成果展示了这种方法的有效性,它们通过在多个设备上分配计算任务,提升了LLMs的可扩展性和效率。

在内存和计算效率的优化方面,SamsungElectronics提出的PIM和PNM技术,以及MELT基础设施,都显著提升了内存带宽和容量,同时降低了能耗,为LLMs的移动部署铺平了道路。MoE架构的应用,如EdgeMoE和LocMoE,通过稀疏激活和动态路由,进一步提高了LLMs的效率。这些方法通过优化专家网络的选择和路由,减少了模型的内存占用和提高了计算速度。

此外,总体效率和性能提升的研究,如Any-PrecisionLLM和LCDA框架,通过提供多精度支持和软硬件协同设计,为LLMs在边缘设备上的高效运行提供了新的视角。随着这些创新技术的迅速发展,我们期待在移动设备和边缘设备上享受到与云端相媲美的智能体验,这将为用户带来更加快速、个性化的服务,同时确保数据的安全性和隐私保护。智能边缘计算的未来正变得愈发清晰,它将为人工智能领域带来深远的影响和无限的可能性。

4模型压缩:平衡性能与效率

在边缘设备上部署大型语言模型(LLMs)时,保持性能的同时提升计算效率尤为关键。本文综述了四种关键的模型压缩技术:量化、剪枝、知识蒸馏和低秩分解,这些方法通过在性能、内存占用和推理速度之间找到平衡,确保了LLMs在端侧应用的可行性。

量化是一种通过降低模型权重和激活的精度来减少模型大小的技术。这种方法能够在几乎不损失模型性能的情况下,显著减少模型所需的存储空间和计算资源。后训练量化(PTQ)是一种在模型训练完成后应用的技术,它通过一些先进的补偿策略,如GPTQ,可以在将模型权重量化到3或4位的情况下,保持模型的高准确度。而量化感知训练(QAT)则将量化集成到模型的训练过程中,使模型在训练时就适应低精度的约束,从而在量化后保持更高的准确度。

剪枝是另一种通过减少模型复杂性来提升计算效率的方法。结构化剪枝通过移除模型中的整个参数子集,如层、通道或过滤器,来优化硬件性能。无结构化剪枝则在更细的粒度上工作,移除单个权重,提供更高的压缩率。此外,上下文剪枝根据模型的运行上下文动态地移除权重,确保在不同条件下都能保持最优的性能。

知识蒸馏是一种将大型模型的知识迁移到小型模型的技术。黑盒KD只使用教师模型的输出进行学习,而白盒KD则允许学生模型访问教师模型的内部状态,实现更深入的学习。这种方法可以在不牺牲性能的情况下,显著减少模型的大小和计算需求。

低秩分解是一种将大型矩阵分解为较小矩阵的技术。这种方法利用了矩阵的低秩结构,减少了计算复杂性,同时保持了模型的准确性。Yao等人的研究将LRF与PTQ结合,提出了低秩补偿(LoRC),在显著减少模型大小的同时,通过补偿策略保持了模型的准确性。

5硬件加速:推动端侧LLMs的高效运行

硬件加速器在大型语言模型(LLMs)的端侧部署中扮演着至关重要的角色。GPU和TPU等专用硬件提供了强大的计算能力和高内存带宽,它们是训练和加速LLMs的重要基础。NVIDIA的TensorCores以及GoogleTPU的高效矩阵乘法能力,都为基于Transformer的模型提供了强有力的支持。同时,FPGA以其灵活性,通过稀疏矩阵乘法和量化技术,在Transformer层的推理任务中展现出高效能,为特定模型架构提供了定制优化的可能。

软硬件协同设计的方法,如量化感知训练和模型压缩,进一步提升了LLMs的效率,使得它们能够跨越从高功率服务器到低功率边缘设备的广泛部署。这些技术通过参数共享和先进的内存管理,减少了模型的存储需求,确保了快速且成本效益更高的部署。此外,各种框架如Llama.cpp、MNN、PowerInfer等,根据不同的硬件平台和用例需求,提供了优化的部署策略,从而实现从云端到边缘的无缝协作。

在边缘云部署方面,MLC-LLM和VLLM等技术通过支持高效的量化方法和关键内存管理,优化了LLMs在边缘设备和云环境中的部署。OpenLLM等项目通过BentoML等工具,实现了开源LLMs的快速部署,提供了与OpenAI兼容的API服务。随着硬件技术的不断进步,如NVIDIAA100GPU和GoogleTPUv4,我们看到了端侧LLMs性能的显著提升,这些硬件不仅提供了巨大的计算能力,还通过混合精度训练等技术,大幅减少了模型的内存占用并提高了计算效率。

6实例与应用:端侧LLMs的实践探索

端侧语言模型的实例:GeminiNano模型通过GoogleAIEdgeSDK为移动操作系统提供了一个小型但功能强大的LLM,它通过4位量化部署,提供了一流的性能和低延迟的推理速度。NexaAIOctopus系列模型则在边缘设备上运行,以超越GPT-4的准确性和延迟,同时减少了95%的上下文长度。Apple的OpenELM和Ferret-v2模型通过iOS集成,提供了类似系统服务的功能扩展。Microsoft的Phi系列,特别是Phi-3-mini模型,即使在移动部署中也展现出与大型模型相媲美的性能。此外,MiniCPM-Llama3-V2.5和Gemma2-9B等开源模型也在各自的领域内展现出卓越的性能。

端侧大语言模型的应用:端侧LLMs的应用范围极为广泛,从即时消息生成、实时语言翻译、会议摘要到医疗咨询、科研支持、陪伴机器人、残障人士辅助以及自动驾驶等。例如,Google的Gboard应用利用GeminiNano模型提供基于聊天内容的快速回复建议。在翻译领域,端侧模型能够在离线环境中快速响应,同时保证翻译质量。会议摘要应用通过分析会议内容,实时生成摘要,避免了云模型订阅服务费用和网络延迟问题。在医疗领域,端侧模型能够在本地处理患者数据,保护隐私同时提供紧急情况下的快速响应。

科研支持方面,端侧LLMs能够利用特定领域的大量专业数据进行训练,加速科研进展。陪伴机器人和IoT设备通过端侧LLMs提升了理解自然语言指令的能力。对于视障人士,端侧多模态模型能够将图像转换为文字,提供丰富的图像描述,并支持离线使用。此外,手语识别和翻译项目也利用了端侧模型的低延迟和离线可用性。

自动驾驶领域,结合大规模视觉语言模型的系统正在改善车辆对复杂和长尾场景的理解,提供即时响应并处理动态场景。

图5展示了端侧LLMs在不同应用领域的表现,从文本生成、翻译、会议摘要、医疗应用、科研支持、伴侣机器人、残障人士辅助到自动驾驶等,端侧LLMs正以其智能、响应迅速和个性化的特点,改变我们与技术的互动方式。

7未来展望:边缘计算的智能转型

图6:on-deviceLLM的未来方向和面临的挑战

在设备上运行的大型语言模型(LLMs)正迅速发展,它们在数据安全、低延迟和个性化AI体验方面展现出巨大潜力。然而,要在资源受限的设备上部署这些模型,我们必须克服包括模型压缩、高效推理、安全性和能源效率等一系列挑战。未来的研究将致力于开发新的隐私保护技术,如查询混淆和先进的随机化技术,同时加强风险评估和监控,以确保模型的实用性和数据的安全性。此外,研究者们也在探索适应性边缘-云协作,通过智能缓存、请求分析和资源分配算法,优化数据在边缘设备与云服务器间的传输。

多模态和跨模态学习是推动LLMs发展的关键方向,它们使模型能够整合并理解多种数据类型,从而提供更丰富的用户体验。研究者们正致力于开发高效的多模态处理技术,以及能够适应不同模态输入的模型架构。同时,资源效率也成为研究的重点,通过模型压缩和执行算法的优化,以及利用模型稀疏性,可以显著降低模型在边缘设备上的能源消耗,这对环境保护具有重要意义。

为了进一步提升LLMs的性能,硬件-软件的协同设计变得至关重要。未来的研究将探索新的PIM/PNM架构,以及针对AI特定需求优化的编译器和运行时系统。此外,确保模型的鲁棒性和可靠性也是未来工作的重点,研究者们正在开发方法以检测和减轻模型输出中的偏见和幻觉,特别是在安全关键的应用中。

个性化AI体验是设备上LLMs的另一大优势,但这也带来了模型持续学习和适应新信息的挑战。未来的研究将集中于实现知识保留和遗忘的可控机制,以及开发持续学习的理论基础和优化策略。通过这些机制,模型能够根据用户交互和本地数据自主学习新技能,并提高现有能力。

8结语

在设备上部署的大型语言模型(LLMs)正开启智能边缘计算的新篇章,预示着一个个性化、高效的AI时代即将到来。这些模型通过强化数据安全、降低延迟,并提供深度个性化的体验,将彻底改变我们与技术的互动。展望未来,随着技术的不断成熟,我们期待一个设备更智能、服务更精准、生活更便捷的新世界。个性化的AI将融入日常生活的方方面面,从智能家居到自动驾驶,从虚拟助手到健康监护,它们将以前所未有的方式提升我们的生活品质。随着研究的深入,一个更智能、更可靠、更贴近人心的AI未来正向我们招手,让我们满怀期待,迎接这个由LLMs引领的创新纪元。

为了进一步促进学术交流和知识共享,我们建立了一个专门的GitHub资源库——AwesomeLLMsonDevice。这个资源库不仅收录了本论文的详细内容,还将持续更新,边缘智能的新时代:端侧大模型的研究进展综述以反映该领域的最新研究成果和技术动态。

诚邀学术界同仁访问我们的GitHub资源库,参与到LLMs在边缘设备上的研究中来,共同推动智能边缘技术的创新与发展。

GithubRepo:https://github.com/NexaAI/Awesome-LLMs-on-device

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:无敌椰子

分享:

扫一扫在手机阅读、分享本文