
目前,Renforce学习(RL)具有提高大型语言模型(LLM)推理能力的巨大潜力。诸如DeepSeek R1,Kimi K1.5和Qwen 3之类的模型完全证明了RL提高LLM的复杂推理能力的有效性。但是,有效的强化学习需要解决基本挑战:信用分配。换句话说,在大型语言模型的场景中,整个序列(响应LLM)的最终评估结果归因于序列中的特定决策动作。这个问题的困难是奖励信号非常稀缺。关于成功或失败的定义反馈只能在序列结束时获得。在强化学习中,主要优势估计方法通常用于解决信用分配问题。目前,大规模语言模型的加强学习方法分为两个主要类别。它们之间的差异是估计值的不同粒度。作为DeepSeek R1使用的GPO,厚谷物方法仅根据最终奖励计算完整序列的优势值。该方法是有效的,但是反馈信号太难了,因此LLM无法奖励错误响应的正确部分,或惩罚正确答案的冗余部分。另一个极端是令牌(令牌级别)的方法,例如经典PPO。这种类型的方法必须信任其他重要模型,以估计每个令牌的主要值并预测每个令牌的状态值(值V)。但是,在大规模语言模型的增强学习任务中,与不同的指标相对应的轨迹分布以及在培训过程中每个指标采样模型中的响应次数非常有限,这使得在估计主导估算时产生很大的错误,这使得非常有限令牌级别的值。为了打破这种瓶颈,来自中国软件学院和香港大学科学院的研究团队创新了一个细分政策的优化框架(SPO)。 Document title: Optimization of the segment policy: credit allocation at the effective segment level in RL for large language models Author: Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiulink: https://arxiv.org/abs/2505.23564Code Link: https:/aiframeresearch/spo Middle grain segment level (segment level) The dominant value估计方法。我们不仅在最后一步中计算优势,例如理论级方法,而是计算每个步骤中的优势,例如令牌级方法。相反,我们将生成的序列分为几个连接的段,并计算每个段的优势值。这种估计细分级别福利价值的方法具有几个明显的优势。 (1)更好的信用al位置:与轨道方法相比,片段级别的方法允许模型奖励不正确的响应中仍然有价值的部分,并惩罚正确答案的冗余片段和无效的片段。 (2)估计更精确的主导价值:与令牌方法相比,段水平方法需要更少的估计点,从而允许使用Monte Carlo(MC)采样的额外不稳定的不稳定关键模型,从而可以进行更精确和公正的主导价值估计。 (3)更灵活,更易于调整:D级除法方法可以任意定义段,并且不需要语义完整性。因此,可以在令牌和轨迹级别之间灵活地调整粒度,从而适应各种任务和应用程序场景。 SPO框架包含三个主要部分:(1)段级别的柔性除法策略。 (2)基于蒙特卡洛采样的段级别域值的估计。 (3)在段级别使用域值策略优化。这种模块化设计使框架具有高度的灵活性,并允许不同的实施策略在不同的应用程序场景中应用不同的作品。该团队还提出了两个推理方案的SPO框架的两个具体示例。对于Sabot短链情景(COT),我们根据切割点进行分割提出了一个SPO链,LTO估算了链的域值。在长长的摇篮方案中,MC服务Sprop一种方法是估计树木结构的主要值,从而显着提高了模拟的效率。此外,团队还提出了一种令牌概率掩盖策略的优化方法,选择性地计算了一个段内低概率令牌的损失,而不是段内的所有令牌。作者认为这些令牌是模型推理可以分叉的轨迹,这是生成的主要原因n在段级别的主要值。这种方法可以用于SPO和SPO树中,甚至可以改善您的信用分配。中央框架和技术SPO框架主要在三个具有挑战性的问题中设计:(1)如何将多个段中产生的序列分开? (2)如何在前曼纳西舞中估计并有效地对应于每个段的主要值? (3)如何使用细分级别的优势来更新我的策略?三个中央SPO模块回答了之前的三个问题。不同的选项策略适用于不同的方案。 1。段分区:a)基于分区的分区:为短凹槽场景和状态值(Valo V)而设计的位置细分点可能会发生变化。根据令牌的概率动态确定细分市场的限制,并优先考虑要更改推理路线以使信用分配更精确的关键点(切割点)的划分。例如,在下面的示例中,标记的红色令牌标记为关键点,蓝色垂直条是分割的结果。 b)固定的令牌计数分区:将序列分为固定的longi节段,以促进为SPO树设计的树木结构和估算主要值。 2。估计段优势:a)基于链的方法:在简短的思想链情景中,MC采样成本不高。该设备使用直接段级别的优势估计方法来独立估计每个段限制中的状态值(V)并在段级别计算优势值。以下方程式显示了如何估计链的域值:b)基于树的值估计值(基于树):在长期思想的链情景中,估计的MEL成本C非常高。团队提出了一种有效的树木估计方法。在树结构中组织采样轨迹,计算STATUS值(值V)通过上升奖励的聚合和儿童的结节是相同的主要节点形成组,从而计算组中每个段的主要值。该方法使用用于估计V值的样品,并同时用于优化策略,从而大大提高了样本效率。以下方程式显示了如何估计树的阴影值:3。使用段的优化使用令牌概率掩码进行优化:在在段级别获得优势值之后,设备具有无知提出了一种优化令牌概率蒙版策略的优化方法,以进一步改善信用分配。在策略更新期间,在细分市场中分配了低概率(关键)令牌,而不是全部令牌。这种方法允许精确分配奖励/惩罚,以制定重要的决策,从而提高了学徒的效率和有效性。 T的优化目标他的SPO链和SPO树分别显示下面。 a)SPO链的优化目标:b)SPO树的优化目标:参考方法的比较如下图所示。在思想链的简短场景中,Rhomath1.1b用作基本模型,并使用GSM。 8K的训练套装经过训练。与不同的训练算法相比,使用SPO训练获得的模型测试集的精度更大。如下图所示,对于长期思考的链情景,DEPSEEK-R1-DISTILL-QWEN-1.5B用作基本模型,并且使用数学数据集进行训练,并且在同一训练时,测试集的精度大于GRPO的精确度。下表显示了最长的Caden方案的更多比较结果。尽管SPO仅使用数学数据集,但SPO在每个上下文长度额定值中效果很好,最大上下文长度仅使用4K。 DepScaler在32K评级con中的运作最佳文本长度虽然具有较短的上下文长度(2k vs. 4K),但不像原始基座模型那样出色,但仍是指出这一点的罚款。这表明,GPO培训方法可能无法有效地优化模型令牌的效率,从而导致更大的产出冗余,并且在有限的上下文长度情况下较不精确。与平均粒径(INT5)相比,通过实验发现了分段粒径的效果,即非常细的粒径(每个切割点中的每一个)略有改善,但是与平均粒径相比,粒径过高(INT100)显着回顾了(INT100)。已经证明了SPO的有效性,它使用了中间谷物的主要价值。关于分割方法效果的实验表明,对于简短的思想链情景,基于切割点的分割方法是最佳的。令牌的概率m询问消融实验表明,消除令牌的概率掩盖会降低SPO链的精度。更明显的是,令牌掩盖GRPO的应用可显着提高精度。不同树结构实验的影响表明,较小的树结构在早期阶段具有更高的精度,也许是因为它们更快地扫描了更多的数据样本。但是,随着训练的进行,较大的树结构具有更好的定义,因为它们更精确地在段级别估计域值。对这项工作的一般描述,基于中间粒径段的主要值的RL SPO训练框架可在令牌和轨迹水平之间取得更好的平衡,其信用分配比轨道水平更好,并且仅需要少数估计的优势值。可以使用有效和公正的MC方法来估计它,而无需其他重要模型。在本文中,我们还提出了两个SPO的示例,该示例专为SPO树而设计,专为简短的思想链情景和长期思考链情景而设计,在实验上证明了SPO框架的有效性和两个实例。