2024/06/24 11:36

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。DPO 通过数学推理得到奖励函数与最优策略之间的直接映射，消除了奖励模型的训练过程，直接在偏好数据上优化策略模型，实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度，还增强了算法的稳健性，迅速成为业界的新宠。

然而，DPO 主要关注在逆 KL 散度约束下的策略优化。由于逆 KL 散度的 mode-seeking 特性，DPO 在提升对齐性能方面表现出色，但是这一特性也倾向于在生成过程中减少多样性，可能限制模型的能力。另一方面，尽管 DPO 从句子级的角度控制 KL 散度，模型的生成过程本质上是逐个 token 进行的。从句子级控制 KL 散度直观上表明 DPO 在细粒度控制上存在限制，对 KL 散度的调节能力较弱，可能是 DPO 训练过程中 LLM 的生成多样性迅速下降的关键因素之一。

为此，来自中科院和伦敦大学学院的汪军与张海峰团队提出了一种从 token-level 角度建模的大模型对齐算法：TDPO。

论文标题：Token-level Direct Preference Optimization
论文地址：https://arxiv.org/abs/2404.11999
代码地址：https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

为了应对模型生成多样性显著下降的问题，TDPO 从 token-level 的角度重新定义了整个对齐流程的目标函数，并通过将 Bradley-Terry 模型转换为优势函数的形式，使得整个对齐流程能最终从 Token-level 层面进行分析和优化。相比于 DPO 而言，TDPO 的主要贡献如下：

Token-level 的建模方式：TDPO 从 Token-level 的角度对问题进行了建模，对 RLHF 进行了更精细的分析；
细粒度 KL 散度约束：在每个 token 处从理论上引入了前向 KL 散度约束，使方法能够更好地约束模型优化；
性能优势明显：相比于 DPO 而言，TDPO 能够实现更好的对齐性能和生成多样性的帕累托前沿。

DPO 与 TDPO 的主要区别如下图所示：

^{图 1：DPO 的对齐优化方式。DPO 从 sentence-level 的角度进行建模}

^{图 2：TDPO 的对齐优化方式。TDPO 从 token-level 的角度进行建模，并在每个 token 处引入了额外的前向 KL 散度约束，如图中红色部分所示，控制模型偏移程度的同时，充当了模型对齐的 baseline}

下面介绍两者方法的具体推导过程。

背景：直接偏好优化（DPO）

DPO 通过数学推导，得到了奖励函数与最优策略之间的直接映射，消除了 RLHF 过程中的奖励建模阶段：

将公式 (1) 代入 Bradley-Terry (BT) 偏好模型中，得到直接策略优化（DPO）损失函数:

其中是由来自偏好数据集 D 的 prompt、获胜响应和失败响应构成的偏好对。

TDPO

符号标注

为了建模语言模型顺序的、自回归的生成过程，TDPO 将生成回复表示成 T 个 token 组成的形式，其中，表示字母表（词汇表）。

当将文本生成建模为马尔可夫决策过程时，状态 state 定义为 prompt 和到当前 step 为止已生成的 token 的组合，表示为，而动作 action 则对应于下一个生成的 token，表示为，token 级奖励定义为。

基于以上提供的定义，TDPO 为策略建立了状态 - 动作函数、状态值函数和优势函数：

其中，表示折扣因子。

Token-level 角度的人类反馈强化学习

TDPO 理论上修改了 RLHF 的奖励建模阶段和 RL 微调阶段，将它们扩展为了从 token-level 角度考虑的优化目标。

对于奖励建模阶段， TDPO 建立了 Bradley-Terry 模型和优势函数之间的相关性：

对于 RL 微调阶段，TDPO 定义了以下目标函数：

推导

从目标 (4) 出发，TDPO 在每个 token 上推导了最优策略和状态 - 动作函数之间的映射关系：

其中，表示配分函数。

将方程 (5) 代入方程 (3)，我们得到：

其中，表示策略模型和参考模型表示的隐式奖励函数差异，表示为

而则表示和的序列级前向 KL 散度差异，按加权，表示为

基于方程 (8)，TDPO 最大似然损失函数可以建模为：

考虑到在实际中，损失倾向于增加，放大和之间的差异，TDPO 提出修改方程 (9) 为：

其中是一个超参数，而

这里，表示停止梯度传播运算符。

我们将 TDPO 和 DPO 的损失函数总结如下：

由此可见，TDPO 在每个 token 处引入了这种前向 KL 散度控制，使得在优化过程中能够更好地控制 KL 的变化，而不影响对齐性能，从而实现了更优的帕累托前沿。

实验设置

TDPO 在 IMDb，Anthropic/hh-rlhf、MT-Bench 上个数据集上进行了实验。

IMDb

在 IMDb 数据集上，该团队采用了 GPT-2 作为基模型，然后用 siebert/sentiment-roberta-large-english 作为奖励模型评估策略模型输出，实验结果如图 3 所示。

从图 3 (a) 中可以看出，TDPO (TDPO1,TDPO2) 能够达到比 DPO 更好的 reward-KL 的帕累托前沿，而从图 3 (b)-(d) 则可以看出，TDPO 在 KL 散度控制方面表现极为出色，远远优于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 数据集上，该团队采用了 Pythia 2.8B 作为基模型，采用两种方式评估模型生成的好坏：1）使用已有的指标；2）使用 GPT-4 评测。

对于第一种评估方式，该团队评测了不同算法训练的模型在对齐性能 (Accuracy) 和生成多样性 (Entropy) 上的权衡，如表 1 所示。

可以看到 TDPO 算法不仅在对齐性能 (Accuracy) 上优于 DPO 和 f-DPO，在生成多样性 (Entropy) 上也占据优势，在这两个大模型生成回复的关键指标上达到了更好的权衡。

而对于第二种评估方式，该团队评测了不同算法训练的模型和人类偏好的吻合度，与数据集中的获胜响应作对比，如图 4 所示。

DPO、TDPO1 和 TDPO2 算法在温度系数为 0.75 的情况下均能够达到对获胜响应的胜率高于 50%，较好地符合人类偏好。

MT-Bench

在论文中的最后一个实验上，该团队采用了在 Anthropic HH 数据集上训练好的 Pythia 2.8B 模型直接用于 MT-Bench 数据集评测，结果如图 5 所示。

在 MT-Bench 上，TDPO 能够达到比其他算法更高的获胜概率，这充分说明了 TDPO 算法训练的模型生成的响应的质量更高。

此外，有相关研究对 DPO、TDPO、SimPO 算法进行了对比，可参考链接：https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 脚本，评测了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的对齐算法 DPO、TDPO、SimPO 微调训练得到的性能，以下是实验的实验结果：

^{表格 2：DPO,TDPO,SimPO 算法性能对比}

了解更多结果，请参考原论文。

工程对齐算法TDPO

相关数据

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型，为动态规划与强化学习的最优化问题提供了有效的数学工具，广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时，我们一般特指其在离散时间中的随机控制过程：即对于每个时间节点，当该过程处于某状态(s)时，决策者可采取在该状态下被允许的任意决策(a)，此后下一步系统状态将随机产生，同时回馈给决策者相应的期望值，该状态转移具有马尔可夫性质。

来源：Reinforcement Learning: An Introduction, by R. Sutton and A. G. Barto； Algorithms for Reinforcement Learning, by C. Szepesvari

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

文本生成技术

文本生成是生成文本的任务，其目的是使人类书写文本难以区分。

来源：paperswithcode

模型优化技术

像卷积神经网络（CNN）这样的深度学习模型具有大量的参数；实际上，我们可以调用这些超参数，因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值，但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构，他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

来源：机器之心

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍，该模型是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。在性能方面，该模型能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。

来源：OpenAI博客

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/