终端部署大模型倒逼芯片升级
来源:中国电子报 更新时间:2023-08-25

  
近日,联发科正式宣布与百度联合发起飞桨和文心大模型硬件生态共创计划,双方将共同推进联发科硬件平台与飞桨和文心大模型的适配,支持基于联发科芯片的智能手机、汽车、智能家居、物联网等终端设备运行文心大模型;小米创始人、董事长雷军在年度演讲中也表示,小米已经在手机上跑通了13亿参数的大模型,轻量化和本地部署是小米大模型技术的主力突破方向。

作为连接多个生活场景、硬件消费市场、信息消费市场、基础通信和互联网应用的枢纽,手机等智能终端在AI大模型时代越发关键。当大模型部署在终端,芯片作为算力底座如何更好地与之适配,也成为业内热议的话题。

大模型轻量化是重要发展方向之一

当前,由ChatGPT引领的生成式AI大模型风潮已经席卷全球,人工智能推理正在从云端走向终端。记者注意到,除小米和联发科之外,谷歌、微软和苹果等厂商也在发力终端大模型,轻量化已成为大模型在终端部署的重要发展方向。

今年5月,谷歌发布了适用边缘的大模型PaLM2。具体来看,PaLM2大模型一共有四种规格,分别是Gecko(壁虎)、Otter(水獭)、Bison(野牛)和Unicorn(独角兽)。其中,Gecko非常轻量,可在移动设备上工作。记者了解到,一个更轻量但具有更高质量的模型能够显著提高推理效率、降低服务成本,使模型的下游应用程序适配更多应用程序和用户,使AI边缘部署成为可能。

谷歌的竞争对手同样不甘落后。7月份,苹果正式宣布启动开发AppleGPT,加入终端AI大模型战局。据了解,AppleGPT是苹果公司基于其自研的Ajax框架开发的AI工具,目前已在苹果公司内部展开小范围内测。

同时,微软开源了DeepSpeedChat训练模型、Meta开源了LLaMA,在AI开发者中快速兴起基于LLaMA的训练风潮,加速Lora等训练方法的渗透。据悉,Deepspeed与Lora模型给中小开发者提供了低成本、快速训练专属于自己的“小模型”的完整工具,加速建立大模型梯度分布的格局。

芯片厂商方面,高通在MWC 2023大会发布全球首个运行在Android手机上的Stable Diffusion终端侧演示。据介绍,Stable Diffusion模型参数超过10亿,高通利用其AI软件栈对模型进行量化、编译和硬件加速优化,使其成功在搭载第二代骁龙8移动平台的手机上运行。

在AI计算的实现上,软件和硬件同样重要,因为必须在端侧做到运算更快、效率更高,并推动AI应用在广泛终端上的部署和普及。记者了解到,高通早在2022年6月就推出了AI软件栈(Qualcomm AI Stack),支持包括TensorFlow、Pytorch和ONNX在内的所有主流开发框架,所有runtimes(运行时,即某门编程语言的运行环境)和操作系统。借助高通AI软件栈,开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。

高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar表示,未来公司需要加大终端侧技术上的研发,尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算(FP32),而其在手机端现在能够支持INT4计算,这能大大提高端侧的处理能力。

大模型在终端的轻量化部署需要芯片在算力与功耗之间找到平衡点。赛迪顾问研究员邓楚翔对《中国电子报》记者表示,大模型“由云向端”趋势,对手机、可穿戴设备、智能家电等电子电器产品SoC中的GPU算力与功耗平衡提出了更高要求。特别是在手机等终端产品中,“便利性”是第一要素,因此大模型在参数上会进行适度压缩,算力芯片需要同时考虑算力与功耗比。同时,当大模型应用于终端领域时,低延时响应能力也是对专用GPU性能的重要评判指标。

事实上,在终端应用场景,芯片、硬件等主要进行的是推理过程。根据应用场景的不同,不同大模型对硬件的需求也是不一样的。

“比如,需要随时更新学习数据的通用大模型,终端大模型应用需要端云协作,对硬件的互连性能和网络情况有较高要求;有些比较‘精简’的、不需要基于在线数据的大模型应用,如内容生成大模型应用场景的一种——图片修改,就可以在终端设备中运行,但这种场景对终端设备本身的算力就有较高要求。”本土GPU厂商技术专家对《中国电子报》记者表示。

芯片面临性能与算力等多重挑战

全球众多科技企业都在积极研究AI大模型,并致力于实现大模型在终端的轻量化部署。但由于算力的参数规模太大,从算力硬件来看,由于AI芯片针对AI算法做了特殊加速设计,大多数AI训练和推理工作负载对AI芯片的性能和算力要求很高,这也让芯片面临存储、计算能力、功耗等方面的多重挑战。

“端侧和边缘设备的算力、功耗、成本往往有限,不像算力中心可以无限增加设备。因此,如何在一个资源受限的情况下去完成推理,就需要根据特定领域的特定需求去做特定优化。”澎峰科技联合创始人兼首席运营官王军辉对《中国电子报》记者表示,一方面,这需要AI软件栈对模型进行量化、编译和软件加速优化。另外一方面,针对大模型的异构计算芯片将成为未来的主流发展趋势。而其挑战在于,由于目前算法依然处于快速迭代阶段,因此投入和产出具有很高的不确定性。

从芯片架构的角度来看,异构计算将是实现终端和边缘侧大模型部署的必然选择。Arm物联网事业部业务拓展副总裁马健对《中国电子报》记者表示,边缘侧设备集成的芯片从同构CPU架构发展到异构及加速器架构,能够更好地支持大模型稀疏化后形成的小模型,使它们能够在边缘侧和端侧实现部署。

在本土GPU厂商技术专家看来,大模型部署在终端的最大技术挑战主要在于设备。这是因为终端设备往往对芯片功耗和芯片面积非常敏感,因此在算力提升上难度很大。

“这其实也是移动芯片所面临的技术挑战。摩尔定律基本走到尽头,在功耗和面积限制下,提升算力的难度巨大、成本巨大。”该技术专家认为,提升算力的解决方案主要有两方面。一方面是利用好5G通信技术带来的优势,更多采用云端计算的方式来部署大模型应用;另一方面则是加强在芯片制造、封装等方面的技术研发力度,争取突破摩尔定律,寻找新的解决方案。

大模型在终端部署前还要通过机器学习等方式进行训练。记者了解到,在算力挑战下,现阶段的大模型训练主要在云端或边缘进行。本土GPU厂商的技术专家对记者表示:“大模型在训练过程中需要庞大的算力,推理工作也很难在终端平台上进行计算,因此需要云端算力。对于终端设备而言,要想利用好当前大模型的这波热潮,关键还是利用好通信技术的发展,结合云端算力进行大模型的终端部署。”(记者 张依依 )