Training language models to follow instructions with human feedback
创建于 更新于
摘要
本报告介绍了OpenAI发表的InstructGPT语言模型,通过整合人类反馈的强化学习(RLHF)技术,显著提升模型遵循用户指令的能力和输出质量。核心方法包括监督微调、奖励模型训练及基于PPO的强化学习微调。实验结果显示,13亿参数InstructGPT模型在多项指标上优于1750亿参数GPT-3,效果更真实、毒性更低且更好地遵循指令。此外,InstructGPT模型在非英语指令和代码理解等领域表现出良好泛化能力,但仍存在性能衰退和简单错误等局限。报告强调该技术在提升语言模型符合人类意图方面具有重要价值,同时指出了偏差、滥用风险及未来的改进方向[pidx::0][pidx::3][pidx::5][pidx::13][pidx::16][pidx::19][pidx::22].
速读内容
- InstructGPT模型训练流程 [pidx::4]

- 步骤1:使用标注员演示数据对预训练GPT-3模型做监督微调。
- 步骤2:收集模型输出的比较数据,训练奖励模型(Reward Model, RM)。
- 步骤3:利用PPO算法基于RM信号对策略进行强化学习微调,步骤2和3可迭代进行。
- InstructGPT在人工评估中的性能 [pidx::4][pidx::13][pidx::14]


- InstructGPT (PPO-ptx)输出显著优于同体系架构的1750亿参数GPT-3,且13亿参数的InstructGPT优于1750亿参数GPT-3。
- 标注员对InstructGPT的评分更高,更能遵循指令并减少信息“幻觉”。
- InstructGPT模型偏好一致性在训练标注员和“留出”标注员之间表现稳定。
- 数据集组成与任务多样性 [pidx::8][pidx::9]

- 训练数据主要来源于OpenAI API提交的提示及标注员编写的多样化指令。
- 超过57%的任务为生成任务,少数为分类和问答任务,涵盖总结、对话、提取等多种自然语言处理任务。
- InstructGPT在公开NLP基准上的表现 [pidx::15][pidx::16]


- 在TruthfulQA真实性评测中,InstructGPT生成的真实和信息丰富的回答是GPT-3的约两倍。
- 在RealToxicityPrompts毒性评估中,InstructGPT在有“尊重”提示下产生毒性输出较少,但偏差方面改善有限。
- 量化因子示范— RLHF微调策略效果 [pidx::11][pidx::12][pidx::16]
- 使用由标注员排序的模型输出训练奖励模型,奖励函数用于PPO算法强化学习微调。
- 引入预训练数据混合更新(PPO-ptx)减少了对公开NLP基准的性能衰退,降低了“对齐税”。
- InstructGPT的泛化能力与局限 [pidx::18][pidx::19]


- 模型能较好泛化于未见过的标注员偏好及语言(包括非英语、代码任务)。
- 仍存在问题包括对错误前提的盲从、拐弯抹角回答和在复杂约束下性能下降。
- 人类反馈驱动的对齐技术优势与风险 [pidx::19][pidx::22][pidx::23]
- RLHF方法显著提升模型与人类偏好的一致性,成本远低于简单增大模型规模。
- 现有标注员群体不能代表所有用户及利益相关群体,模型偏好受他们指导且可能存在偏差。
- 潜在风险包括模型易产生成令误导的错误信息以及可能被滥用,需审慎部署及进一步研究。
深度阅读
金融工程专题报告深度分析——基于《Training language models to follow instructions with human feedback》之InstructGPT模型技术解读
---
一、元数据与概览
报告元信息
- 报告标题:金融工程专题
- 作者:肖承志(证券分析师,资格编号 S0120521080003)
- 发布机构:德邦证券研究所
- 发布日期:2022年(具体日期未明确,依据上下文为2022年7月后)
- 主题:深度解析基于人类反馈训练语言模型技术,重点介绍OpenAI的InstructGPT模型及其衍生的ChatGPT技术
- 相关研究:报告系列第八期,涉及之前多个金融工程文献译介,技术基于2022年3月发表的论文
核心论点摘要
本报告系统介绍了OpenAI提出的一种通过结合人类反馈的强化学习(RLHF)对预训练大型语言模型(GPT-3)进行微调以生成更贴合人类意图输出的研究。重点为InstructGPT模型的构建方法、训练流程、核心技术细节及其在多项评价指标上的优越表现。报告指出:
- InstructGPT模型(参数量13亿至1750亿不等)在用户偏好上明显优于传统GPT-3,甚至小规模模型优于最大规模未经微调的GPT-3。
- 微调过程结合了标注员演示、输出对比结果以及使用PPO算法多轮迭代训练奖励模型。
- 模型真实度提高,毒性输出减少,但仍存在一定局限与风险。
- 技术未来可拓展至多语言、代码任务,且可减少“对齐税”(alignment tax,即性能衰减)。
- 人类反馈在神经语言模型对齐中展示前景广阔,但需关注伦理、偏见风险与模型滥用。
报告给出了全面细致的技术方法论、实验设计、数据集构造、评价方式和丰富的实证结果,并对行业前沿的挑战和未来方向展开说理[pidx::0][pidx::3][pidx::5]。
---
二、章节深度解析
1. 摘要与简介
报告草拟了InstructGPT背后的论文主旨和技术路线,强调语言模型的预训练目标与用户实际意图常存在偏差,传统基于文本预测的方式不能够有效遵循人类指令。通过人类反馈训练奖励模型(RM)引导策略优化,是对齐语言模型关键突破。RLHF不但提高了对人类指令的服从性,而且增强了生成内容的真实性及安全性[pidx::3]。
2. 构建InstructGPT的技术路径(方法与实验细节)
核心创新在于三步训练过程:
- 步骤1:监督学习微调 (SFT)。由标注员生成的演示数据训练模型理解符合人类意图的行为。
- 步骤2:奖励模型训练 (RM)。根据人类标注员对多条模型输出的排序,训练RM预测人类偏好。
- 步骤3:强化学习微调 (RL,用PPO算法)。根据RM反馈的奖励信号,用策略优化算法调整模型输出策略,使其更符合人类偏好。
此三步可以不断迭代以提升模型性能。数据集以OpenAI API用户提交的“提示”文本和标注员自编指令为主,精心设计了多样化任务类型,且保障训练集、验证集和测试集的用户分离,降低过拟合风险。标注员团队约40人,经过严格筛选及统一培训,保证数据质量与一致性。训练过程对公共NLP任务也进行了兼顾,但主攻方向是生成类多样任务[pidx::4][pidx::5][pidx::8][pidx::9][pidx::10]。
3. 评价体系与指标
评价包含两个平行维度:
- API分布上的人工标注偏好评测:评价模型输出是否“帮助用户完成任务”、“诚实”(无虚假信息)、“无害”(无有害或偏见文本),由标注员基于实际用户“提示”在7级Likert量表和输出优劣比较中打分。
- 公开NLP数据集自动评测:真伪检测(TruthfulQA)、毒性检测(RealToxicityPrompts)、偏见检测(Winogender、CrowS-Pairs)等基准。兼顾零样本任务表现监测合规性与泛化能力。
评估注重实际应用环境的真切用户需求与指令遵循安全,抽象指标融合具体操作性实现[pidx::12][pidx::13]。
4. 结果与发现
API提示分布结果
- InstructGPT在整体偏好赢率显著超过和参数远大于的GPT-3,13亿参数模型输出胜率优于1750亿GPT-3。
- PPO和PPO-ptx(混合预训练梯度)版本表现接近,前者刚开始训练后表现已稳定。由训练标注员和未参与训练的标注员都认可,避免过拟合偏好。
- 模型更适合充当客户助理,能更好地严格遵循指令中的限制,更少虚构事实(幻觉)。
- 在API实际提示中,生成任务主导,占57%,分类和QA约18%,这也是InstructGPT数据集设计的重点。
公开NLP数据集结果
- InstructGPT在TruthfulQA测试集上真实回答频率几乎是GPT-3的两倍,体现了更高可信度与责任感。
- 毒性测试发现:在带有“尊重”提示语境下,InstructGPT输出有毒内容较GPT-3少约25%;无“尊重”提示下,这一优势减弱或消失。
- 社会偏见指标未显著改善,部分情况下偏好模型反而更自信表现偏见,显示仍需针对性优化。
- 公开数据集任务(如分类、阅读理解)微调表现一般,可能是因为它们代表用户激烈关注的一小部分任务,且与真实客户API使用示例有差异。
定性与泛化观察
- InstructGPT可较好地泛化到未曾见过的语言任务,如多语言指令、代码总结和问答,显示出较强的指令遵循能力,这一点尤为难得。
- 仍存在的不足包括:对假设错误的指令容易被误导,回答可能拖泥带水,面对复合明确约束时性能下降。
- 结合人工示例,强调存在局限与改进可能性质[pidx::14][pidx::15][pidx::16][pidx::17][pidx::18][pidx::19].
---
三、图表深度解读
图1(人工评估各模型胜率)
展示了模型大小和训练方式对模型相对于1750亿参数SFT模型的胜率影响。PPO-ptx和PPO模型无论大小均显著优于GPT(原始和提示式);尤其是13亿参数PPO-ptx模型胜率达到约0.55以上,超过1750亿GPT-3,凸显RLHF微调带来远超模型扩容的收益。
误差条显示95%置信区间,数据可靠性强。此图明确展示了训练方法(RLHF)的巨大性能价值超越简单模型规模提升的观点。
图2(构建InstructGPT的三步流程)
以内容流程图形式清晰地呈现了:
- 监督微调:标注员生成演示数据训练初版策略。
2. 奖励建模:标注员对多个模型生成输出排序,训练奖励模型预测人类偏好。
- 强化学习微调:用奖励模型作为反馈,采用PPO算法持续训练以优化策略。
图示生动展示了人工标注如何嵌入训练闭环,强化人类期望输出的引导。
图3(API提示用例类别分布与示例)
柱状图显示API提示主要是生成类任务(占比57%),其次分类与问答任务占18%左右。旁边示例文本展示了实际用户使用的多样性,包括故事生成、代码总结、翻译请求、问题回答等。
说明培训数据充分结合真实使用场景,重点偏向产生式自然语言任务,导致模型对生成任务表现更优。
图4(标签器元数据分布)
此图归纳了标注员对API提示分布的判断,在多项维度中展现PPO及PPO-ptx模型性能改进优势:
- 更好尝试正确理解并执行指令
- 更好遵守明确指令约束
- 幻觉现象大幅减少
- 语言更适合客户助理环境
此数据为模型更“可靠”“可控”的重要证据。
图5(训练与留出标注员对模型胜率的评分)
左右两个子图分别展示了训练标注员和留出标注员对模型相对于1750亿SFT模型的胜率评估。PPO系列模型在两组标注员中的胜率均高于其他基准,验证了模型没有简单过度拟合训练者偏好,具备较好泛化能力。
图6(API提示元数据评估)
通过多个性能指标(尝试指令执行正确性、遵守约束、幻觉率、语言应用正确性)条形图直观体现出各模型表现差异。PPO及其变体在多个指标中名列前茅,特别幻觉率比GPT-3降半数,彰显模型兼顾性能与安全性的能力。
图7(Likert评分比较)
不同模型对InstructGPT提示分布输出的1-7分级评估。PPO-ptx模型评分最高,超过GPT-3、FLAN和T0微调模型,说明RLHF微调模型更加符合人类标注员的主观感受和期望。
图8(TruthfulQA评测结果)
两个子图分别展示了单独QA提示和指令+QA提示下各模型生成的真实且丰富答案百分比。PPO和PPO-ptx模型提升显著,表明通过人类反馈增强了模型对真实内容的把控。
图9(RealToxicityPrompts人工与自动评估)
左侧人工评估右侧自动API毒性评分。带“尊重”提示时,PPO系列模型显示毒性明显下降;无提示下优势减弱,说明模型在特定指导下降低毒性生成,但仍需强化内生控制。
图10(泛化示例)
展示InstructGPT较GPT-3更好地遵循非英语语言指令与代码相关问题,阐释其泛化能力和多任务适应性。
图11(简单错误展示)
列举InstructGPT在面对惰性回避、错误前提跟随等情境下的短板,为未来改进指明方向。
以上图表协同支撑InstructGPT在语言模型对齐领域的领先地位和实践意义[pidx::4][pidx::8][pidx::14][pidx::16][pidx::17][pidx::18]。
---
四、估值分析
本报告为技术解读性质,无直接财务估值内容,但从投资角度可默认:
- InstructGPT技术大幅提升语言模型的用户价值和实用性,降低因偏差和毒性引发的潜在风险,具有高商业化潜力。
- 增加人类反馈微调训练的成本相对整体预训练而言较低,性价比突出,未来模型迭代具备良好的投资回报和技术壁垒。
- 该技术有助于OpenAI等公司在大型语言模型应用领域维持领先优势,稳固市场地位。
从风险回报视角,技术创新赋能公司形成持续竞争优势,但面临的伦理与安全监管风险也将影响商业估值。
---
五、风险因素评估
报告明确指出了多种风险潜在因素,包括:
- 数据不完备与偏差风险:训练数据主要基于少数标注员和部分API用户,不能覆盖所有用户群体多样化需求,导致模型偏向部分价值判断。
- 滥用风险:更符合人类指令意味着更强的生成能力可能被滥用于制造误导性内容、仇恨言论等不良信息。
- 信息安全风险:模型可能泄露训练数据中未被过滤的敏感信息。
- 算法伦理风险:模型现有的偏见与毒性问题尚未根除,且某些极端指令可能被模型错误执行产生有害输出。
- 对齐局限性:模型严重依赖标注员的指令集和价值观,缺乏完全普适和公平的价值反映,需要多利益相关方参与制定对齐内容和标准。
- 开放性挑战:如何平衡性能与安全、如何实现更广泛用户和文化的价值观融合、如何制定模型可控机制均有待长期持续研究。
报告建议结合数据过滤、对抗训练、加强安全审查等多管齐下,并呼吁针对高风险应用场景建立严格监管机制。上述风险表明模型在端到端商用场景中要谨慎部署,且需不断迭代改进[pidx::0][pidx::16][pidx::21][pidx::22][pidx::23]。
---
六、批判性视角与细微差别
- 报告客观展现InstructGPT性能优秀与仍存问题,但对标注员偏向单一文化背景及语言种类关注不足的限制有较明确反思。
- 对结构更强的少数高风险应用如何限制模型输出讨论较少,尤其在敏感或极端情境中的安全举措内容需要强化。
- 报告虽强调“对齐税”降低,但对不同任务间该策略可能带来的表现权衡及技术细节讲解略显粗略。
- 报告强调“人类偏好”作为对齐标准,未深入探讨多元文化背景和道德标准冲突下的可行机制。
- 对模型生成社会偏见的评估表明本技术未能减少偏差,这可能是批判角度下的重要隐患,值得业界持续关注和改进。
- 报告内容主要围绕技术与实验,不涉及OpenAI商业战略或模型合规层面,故金融属性分析需结合行业环境做宏观判断。
总体,报告保持专业严谨基调,透彻覆盖技术核心及行业相关性,少许细节场景和伦理多样性的讨论有待加强。
---
七、结论性综合
通过对报告全文及所有图表的综合解析可以得出:
- InstructGPT通过引入人类反馈强化学习训练方法,显著提升了大型语言模型对用户指令的遵守度、输出真实度与安全性。
- 该方法在保证显著优于传统GPT-3模型的同时,实现了参数量降低百倍的高效化,展示了极高的技术价值性价比。
- 实验数据涵盖真实客户API提交指令和广泛多样的任务类型,确保模型性能适应实际应用需求。
- 详细评价体系证明该模型更适合扮演客户助理等现实环境角色,减少了虚构内容以及不适当语言输出;不过仍需关注对极端指令的误执行及偏见问题。
- 模型展示出强泛化能力,包括跨语言及代码领域,其表现大幅领先同规模甚至更大规模的传统语言模型。
- 报告全面展现了该领域方法论架构与训练细节,结合人类标注员广泛参与与高质量数据支撑,构建了良性的模型训练闭环。
- 同时,报告坦诚技术局限和伦理及安全风险,提示行业保持持续的开发与监督。
- Long-run视角下,InstructGPT代表了语言模型对齐的实质性进展,为未来AI系统和应用的安全合规使用奠定关键技术基础。
综上,作者持有的态度是对InstructGPT持积极推荐立场,认定其是大型语言模型未来发展方向,具备商业和学术双重价值;同时呼吁行业认真对待模型偏差与滥用风险,并推动多方参与的价值观对齐机制建设。
---
参考出处
内容均来自报告内页码,引用格式例如[pidx::页码]:
- 综合论文介绍及技术论述[pidx::0][pidx::3][pidx::5][pidx::8][pidx::9]
- 图表及数据分析[pidx::4][pidx::14][pidx::16][pidx::17][pidx::18]
- 评价指标体系与实验结果[pidx::12][pidx::13][pidx::15][pidx::16]
- 风险及未来展望[pidx::21][pidx::22][pidx::23]
---
附:报告核心图示示例
图1:人工评估各模型

图2:构建InstructGPT三步骤



图5:模型偏好结果(训练与留出标注员)

---
总结:本报告详实梳理了InstructGPT的技术、数据、绩效及风险,并用丰富图表佐证其创新和实效性,提供了大型语言模型对齐研究与应用的重要参考。