标签：Klear-Reasoner

Klear-Reasoner

6天前

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决...