爱游戏-源2.0

[导读]北京2024年8月23日 /美通社/ -- 近日,海潮信息发布源2.0-M32年夜模子4bit和8bit量化版,机能比肩700亿参数的LLaMA3开源年夜模子。4bit量化版推理运行显存仅需23.27GB,处置每token所需算力约为1.9 GFLOPs,算力耗损仅为划一当量年夜模子L...

北京2024年8月23日 /美通社/ -- 近日,海潮信息发布源2.0-M32年夜模子4bit和8bit量化版,机能比肩700亿参数的LLaMA3开源年夜模子。4bit量化版推理运行显存仅需23.27GB,处置每token所需算力约为1.9 GFLOPs,算力耗损仅为划一当量年夜模子LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

源2.0-M32量化版是"源"年夜模子团队为进一步提高模算效力,下降年夜模子摆设运行的计较资本要求而推出的版本,经由过程采取领先的量化手艺,将原模子精怀抱化至int4和int8级别,并连结模子机能根基不变。源2.0-M32量化版提高了模子摆设加载速度和多线程推理效力,在分歧硬件和软件情况中均能高效运行,下降了模子移植和摆设门坎,让用户利用更少的计较资本,就可以获得源2.0-M32年夜模子的壮大能力。

源2.0-M32年夜模子是海潮信息"源2.0"系列年夜模子的最新版本,其立异性地提出和采取了"基在留意力机制的门控收集"手艺,构建包括32个专家(Expert)的夹杂专家模子(MoE),模子运行时激活参数为37亿,在业界主流基准评测中机能周全对标700亿参数的LLaMA3开源年夜模子,年夜幅晋升了模子算力效力。

模子量化(Model Quantization)是优化年夜模子推理的一种主流手艺,它显著削减了模子的内存占用和计较资本耗损,从而加快推理进程。但是,模子量化可能会影响模子的机能。若何在紧缩模子的同时保持其精度,是量化手艺面对的焦点挑战。

源2.0-M32年夜模子研发团队深切阐发当前主流的量化方案,综合评估模子紧缩结果和精度损掉表示,终究采取了GPTQ量化方式,并采取AutoGPTQ作为量化框架。为了确保模子精度最年夜化,一方面定制化适配了合适源2.0-M32布局的算子,提高了模子的摆设加载速度和多线程推理效力,实现高并发推理;另外一方面临需要量化的中心层(inter_layers)进行了严酷评估和挑选,肯定了最好的量化层。从而成功将模子精怀抱化至int4和int8级别,在模子精度几近无损的条件下,晋升模子紧缩结果、增添推理吞吐量和下降计较本钱,使其更容易在摆设到移动装备和边沿装备上。

评测成果显示,源2.0-M32量化版在多个业界主流的评测使命中机能表示凸起,特殊是在MATH(数学比赛)、ARC-C(科学推理)使命中,比肩具有700亿参数的LLaMA3年夜模子。

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

总之,源2.0-M32年夜模子量化版在连结推理机能的条件下,显著下降了计较资本耗损和内存占用,其采取的GPTQ量化方式经由过程邃密调剂,成功将模子适配至int4和int8精度级别。经由过程定制化算子优化,源2.0-M32量化版江南体育实现了模子布局的深度适配和机能的显著晋升,确保在分歧硬件和软件情况中均能高效运行。将来,跟着量化手艺的进一步优化和利用场景的拓展,源2.0-M32量化版有望在移动装备和边沿计较等范畴阐扬更普遍的感化,为用户供给更高效的智能办事。

欲知详情,请下载word文档 下载文档

北京2024年8月27日 /美通社/ -- 在8月23日举行的2024年长三角生态绿色一体化成长示范区结合招商会上,软通动力信息手艺(团体)股分有限公司(以下简称 软通动力 )与长三角投资(上海)有限...

要害字: BSP 信息手艺

上海2024年8月26日 /美通社/ -- 本日,高端全合成润滑油品牌美孚1号联袂品牌体验官周冠宇,开启全新路程,助力泛博车主经由过程驾驶去摸索更广漠的世界。在全新发布的品牌视频中,周冠宇和分歧布景的消费者表达了对驾驶的酷爱...

要害字: BSP 汽车制造

上一篇:爱游戏-芯动北京五大亮点邀您抢“鲜”看!更多精彩 现场揭晓! 下一篇:爱游戏-安提国际推出ARM推论平台搭载AI加速卡,进军AI On ARM应用新时代