九章云極繆旭:強化學習云將成為群體智能的放大器
近日,在2025算力生態(tài)大會上,九章云極DataCanvas宣布升級旗下強化學習云平臺Agentic RL。此次升級以Agentic強化學習(RL,Reinforcement Learning)技術為核心,直指千行百業(yè)構建專業(yè)級專家智能體的需求,旨在推動群體智能規(guī);涞亍

九章云極首席科學家繆旭介紹,新一代強化學習云搭載的Agentic RL,是一種可精準適配各行業(yè)需求的強化學習技術,能讓通用AI模型快速升級為行業(yè)專家級智能體。該技術框架與傳統(tǒng)強化學習方案存在本質差異,其核心優(yōu)勢在于目標設計的多樣性與聚焦性,通用智能轉化為具備領域專長的專家智能,再以動態(tài)組合放大群體智能,為產業(yè)智能化提供高效解決方案。例如,通過集成自動推理工具,可助力數(shù)學家解決復雜數(shù)學問題;借助3D引擎,能輔助設計師優(yōu)化工業(yè)設計。
繆旭表示,人工智能訓練范式已從預訓練階段邁入后訓練的全新階段。自2024年9月,OpenAI發(fā)布的o1模型通過深度思考模型和Test time scaling技術重新恢復scaling Law效應,標志著強化學習驅動的后訓練范式崛起。2025年初,DeepSeekR1的發(fā)布進一步驗證了強化學習在加速大模型進化方面的巨大潛力。尤其是依賴強推理能力的智能體,強化學習在長規(guī)劃過程中展現(xiàn)出卓越性能。
他介紹,大量的行業(yè)實踐驗證表明,Agentic RL已在專業(yè)屬性強的領域展現(xiàn)出不可替代的賦能價值。比如在供應鏈優(yōu)化領域,通過九章云極蒸餾強化技術,在R1基模型上訓練出的32B小模型表現(xiàn)力超越R1本身;在深度研究智能體方面,開源模型經(jīng)九章云極強化學習云訓練后,能夠達到與閉源模型相當?shù)男Ч?端到端優(yōu)化,則使表現(xiàn)力大幅提升。
這些成功得益于九章云極強化學習的三大核心特點:一是高效率獎勵函數(shù)設計,支持規(guī)則型與多維度獎勵函數(shù),為強化學習提供精準高效的反饋機制;二是全異步系統(tǒng)架構,通過任務策略推演與N+T模型更新技術,將GPU使用率穩(wěn)定維持在99%以上,大幅提升訓練效率;三是大規(guī)模存儲支撐體系,可實現(xiàn)頻繁高效的模型版本管理,保障強化學習過程的穩(wěn)定性與自動化水平。
實測數(shù)據(jù)顯示,九章云極強化學習云端到端訓練效率較行業(yè)平均水平提升500%,綜合成本直降60%,核心性能指標實現(xiàn)行業(yè)領先。在應用場景落地層面,產品已在金融、醫(yī)療、制造、零售、農業(yè)等多個垂直領域完成標桿驗證,展現(xiàn)出強勁的產業(yè)適配能力。
在金融風控領域,通過Agentic RL構建的智能風控系統(tǒng),可實時分析海量交易數(shù)據(jù)并動態(tài)調整風險評分模型。某股份制銀行應用后,欺詐識別準確率提升40%,誤報率下降25%,為信貸審批筑牢安全防線。
在醫(yī)療診斷場景,某三甲醫(yī)院借助強化學習云訓練影像識別智能體,通過持續(xù)學習百萬級病例數(shù)據(jù),在CT影像分析中達到主任醫(yī)師專業(yè)水平,診斷效率提升3倍,同時成功發(fā)現(xiàn)傳統(tǒng)方法遺漏的早期病灶特征。
在智能制造領域,汽車零部件廠商部署的智能排產系統(tǒng),通過強化學習優(yōu)化生產調度,將設備利用率從65%提升至82%,訂單交付周期縮短30%,實現(xiàn)產能、庫存與客戶優(yōu)先級的動態(tài)平衡。
在零售優(yōu)化場景,連鎖超市的智能定價系統(tǒng)依托強化學習,整合天氣、客流、競品價格等數(shù)百維數(shù)據(jù)實現(xiàn)小時級價格調整,試點門店毛利率提升5個百分點,滯銷品周轉率提高2倍。
在智慧農業(yè)領域,溫室種植環(huán)境控制智能體通過學習歷史氣候數(shù)據(jù)與作物生長曲線,自動調節(jié)溫濕度、光照參數(shù),使草莓產量提升20%,同時降低能耗15%。
多領域落地成果引發(fā)專家廣泛關注。中國工程院院士、浙江大學農業(yè)生命環(huán)境學部常務副主任喻景權表示,算力與AI是激活農業(yè)生態(tài)價值的關鍵,AI專家智能體有望是踐行“兩山”理論的數(shù)字化解法。
針對強化學習“樣本使用率低、現(xiàn)實場景探索難”等行業(yè)挑戰(zhàn),繆旭公布了九章云極的攻堅方案。他介紹,采用基于回放的離線PPO強化學習方法,能夠實現(xiàn)5倍訓練速度提升;同時,可以與高校、科研院所合作研發(fā)世界模型,為智能體提供虛擬環(huán)境進行探索,避免現(xiàn)實世界中的高風險行為。
繆旭強調,此次強化學習云的升級,是AI基礎設施向“智能體原生云”轉型的一次重要探索,也是九章云極在先進普惠智算技術的進一步深耕。依托Agentic RL核心技術與全棧式服務能力,既降低企業(yè)AI落地的技術與成本門檻,又能推動人工智能從通用能力走向專業(yè)深耕,促進群體智能的加速形成,賦能千行百業(yè)的智能化轉型。
1.本網(wǎng)刊載內容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
AI營銷不攻自破,沒人關心AI PC里的AI
近兩年來,無論是電腦、手機,還是任何商業(yè)服務,可謂言必稱AI。其中電腦產品在宣傳之中,還要在PC之前再冠以AI二字,以凸顯其不同于以往的身份,為AI在胸膛中央的事做證。然而,就在剛剛落..[詳細]
智能眼鏡扎堆亮相CES 中國廠商解鎖“物理AI”新可能
曾經(jīng),CES的核心焦點始終圍繞手機、電視、筆記本等傳統(tǒng)消費電子品類,但隨著人工智能技術的落地深化,智能眼鏡成功接棒成為新的主角。[詳細]
昇思MindSpore:解鎖超節(jié)點時代的AI框架新范式
近年來,各行各業(yè)逐漸開始全面擁抱AI,各國對AI算力基礎設施的投資也持續(xù)擴張,AI框架作為AI技術及其應用的重要基石,迎來了關鍵的發(fā)展機遇。為超節(jié)點而生的昇思MindSpore AI框架以其突出的..[詳細]
具身智能的大規(guī)模落地仍處于早期階段
近兩年,具身智能無疑是最熱門的賽道之一。據(jù)中國信息通信研究院副總工程師許志遠介紹,當前,具身智能已經(jīng)取得認知智能與物理智能的雙線突破,但模型路線、數(shù)據(jù)范式以及最佳機器人形態(tài)仍未..[詳細]
潮涌亨通,智領未來:交上輝煌答卷在2026續(xù)寫奮進華章
2025年是“十四五”收官與“十五五”蓄力的關鍵節(jié)點。在這一年里,國內新型工業(yè)化加速推進,“AI+制造”成為產業(yè)升級核心引擎;全球AI技術爆發(fā)式增長,海洋及清潔能源轉型浪潮交織,整個國際..[詳細]













