必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

昇騰0day支持智譜GLM-5,744B模型單機高效推理

2026年2月12日 21:06CCTIME飛象網(wǎng)

2026年2月12日,智譜AI發(fā)布Agentic Engineering時代最好的開源模型GLM-5,從“寫代碼”到“寫工程”的能力進一步演進。在Coding與Agent能力上取得開源SOTA表現(xiàn),在真實編程場景的使用體驗逼近Claude Opus 4.5,更擅長復雜系統(tǒng)工程與長程Agent任務(wù)。昇騰一直同步支持智譜GLM系列模型,此次GLM-5模型一經(jīng)開源發(fā)布,昇騰AI基礎(chǔ)軟硬件即實現(xiàn)0day適配,為該模型的推理部署和訓練復現(xiàn)提供全流程支持。

更大基座,更強智能

● 參數(shù)規(guī)模擴展:從355B(激活32B)擴展至744B(激活40B),預訓練數(shù)據(jù)從23T提升至28.5T,更大規(guī)模的預訓練算力顯著提升了模型的通用智能水平。

● 異步強化學習:構(gòu)建全新的“Slime”框架,支持更大模型規(guī)模及更復雜的強化學習任務(wù),提升強化學習后訓練流程效率;提出異步智能體強化學習算法,使模型能夠持續(xù)從長程交互中學習,充分激發(fā)預訓練模型的潛力。

● 稀疏注意力機制:首次集成DeepSeek Sparse Attention,在維持長文本效果無損的同時,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:對齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分別獲得77.4和55.7的開源模型最高分數(shù),性能超過Gemini 3.0 Pro。

Agent能力:SOTA級長程任務(wù)執(zhí)行

GLM-5在多個Agent測評基準中取得開源第一,在BrowseComp(聯(lián)網(wǎng)檢索與信息理解)、MCP-Atlas(工具調(diào)用和多步驟任務(wù)執(zhí)行)和τ²-Bench(復雜多工具場景下的規(guī)劃和執(zhí)行)均取得最優(yōu)表現(xiàn)。

在衡量模型經(jīng)營能力的Vending Bench 2中,GLM-5獲得開源模型中的最佳表現(xiàn)。Vending Bench 2要求模型在一年期內(nèi)經(jīng)營一個模擬的自動售貨機業(yè)務(wù),GLM-5最終賬戶余額達到4432美元,經(jīng)營表現(xiàn)接近Claude Opus 4.5,展現(xiàn)了出色的長期規(guī)劃和資源管理能力。

這些能力是Agentic Engineering的核心:模型不僅要能寫代碼、完成工程,還要能在長程任務(wù)中保持目標一致性、進行資源管理、處理多步驟依賴關(guān)系,成為真正的Agentic Ready基座模型。

基于昇騰實現(xiàn)GLM-5的混合精度高效推理

昇騰支持對GLM模型W4A8混合精度量化,744B超大參數(shù)模型基于Atlas 800 A3實現(xiàn)單機部署。

GLM-5為78層decoder-only大模型:前3層為Dense FFN,后75層為MoE(路由專家+共享專家),自帶一層MTP(Multi-Token Prediction)用于加速解碼過程。針對這一模型結(jié)構(gòu),昇騰對權(quán)重文件采用了W4A8量化,極大減少顯存占用,加速Decode階段的執(zhí)行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理執(zhí)行,并支持業(yè)界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

● 權(quán)重下載:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

● 推理部署:https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化,極減少顯存占用

采用易擴展的MsModelSlim量化工具,全程輕松量化

1、按模塊區(qū)分量化比特與算法:例如Attention與MLP主體用W8A8,MoE專家用W4A8;gate等量化敏感層可按需回退,避免過大精度損失。

2、一鍵即可量化:支持GLM-5量化過程“預處理+子圖融合+分層線性量化”的完整流水線,安裝后一條命令行即可輕松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略,實現(xiàn)快速精度對齊

● 旋轉(zhuǎn)Quarot算法:對權(quán)重做Hadamard旋轉(zhuǎn)與LayerNorm融合,降低激活異常值、改善后續(xù)量化的數(shù)值分布! 

● 多種離群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,權(quán)重采用SSZ(Smooth Scale Zero)標定,支持縮放因子等超參。

● 線性層量化策略:對單層Linear做W8A8或W4A8,對激活值做per-token粒度量化、對權(quán)重做per-channel粒度量化。

高性能融合算子,加速推理執(zhí)行

1、Lightning Indexer融合Kernel

長序列場景下TopK操作會成為瓶頸,通過引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK計算耗時流水掩蓋掉其他操作的耗時,從而提升計算流水收益。

2、Sparse Flash Attention融合Kernel

引入SFA,包含了從完整KVCache里選取TopK相關(guān)Token,及計算稀疏Flash Attention操作,可用離散聚合訪存耗時掩蓋其他操作耗時。

3、MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預處理階段將query和KV進行降維操作,并且把query降維后的激活值傳遞給Indexer模塊進行稀疏選擇處理。近期將會引入MLAPO通過VV融合(多個Vector算子融合)技術(shù),將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外,在MLAPO算子內(nèi)部,通過Vector和Cube計算單元的并行處理及流水優(yōu)化,進一步提升算子整體性能。

基于昇騰實現(xiàn)GLM-5的訓練復現(xiàn)

GLM-5采用了DeepSeek Sparse Attention(DSA)架構(gòu),針對DSA訓練場景,昇騰團隊設(shè)計并實現(xiàn)了昇騰親和融合算子,從兩方面進行優(yōu)化:一是優(yōu)化Lightning Indexer Loss計算階段的內(nèi)存占用,二是利用昇騰Cube和Vector單元的流水并行來進一步提升計算效率。

訓練部署指導:https://modelers.cn/models/MindSpeed/GLM-5

編 輯:T01
飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像