首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網|量子|低空經濟|智能汽車|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|大數據|報告|智慧城市|移動互聯(lián)網|會展
首頁 >> 移動互聯(lián)網 >> 正文

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩(wěn)定性與探索能力

2025年8月21日 10:45  CCTIME飛象網  

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現(xiàn)這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單,F(xiàn)實是,很多中小規(guī)模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規(guī)模模型的 SOTA 水平,并完整公開了訓練細節(jié)與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規(guī)模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術創(chuàng)新是Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓練穩(wěn)定性的同時,大幅提升探索能力的強化學習優(yōu)化方法。

傳統(tǒng)clip的隱性代價

在PPO和GRPO等常用的策略優(yōu)化方法中,clip是控制訓練穩(wěn)定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發(fā)現(xiàn),clip 機制在保護穩(wěn)定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。通過 GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。

在與現(xiàn)有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現(xiàn)出優(yōu)勢。

數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環(huán)節(jié)進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素,為社區(qū)貢獻了一條可復現(xiàn)、可推廣的推理模型監(jiān)督學習和強化學習路線:

·SFT階段:質量優(yōu)先,數據可靠性比數量更重要

實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優(yōu)勢。

高質量數學數據Top-K子集組合對監(jiān)督微調(SFT)性能的影響。

·SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現(xiàn)。

通過三組實驗分析了數據正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現(xiàn)差異。表格中加粗數值標識了各組內的最優(yōu)性能結果。

·RL階段:軟獎勵優(yōu)于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

·RL階段:代碼數據測試用例過濾

在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留

在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對比。Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區(qū)貢獻了一條可復現(xiàn)、可推廣的推理模型監(jiān)督學習和強化學習路線。通過 GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

編 輯:T01
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
中國電信柯瑞文:星辰智惠 共治共享
精彩視頻
2025世界人形機器人運動會十大名場面燃爆全場
“移起向新 數智興農” 廣西媒體行
現(xiàn)場直擊2025世界人形機器人運動會
機器人也太會整活了!跟隨中國聯(lián)通,打卡國家速滑館“冰絲帶”
精彩專題
2025世界人工智能大會暨人工智能全球治理高級別會議
2025中國聯(lián)通合作伙伴大會
2025 MWC 上海
2025工業(yè)互聯(lián)網大會
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像