ChatGPT 中有这样一个核心训练方法,名叫 "人类反馈强化学习(RLHF)"。


(相关资料图)

它可以让模型更安全、输出结果更遵循人类意图。

现在,来自谷歌 Research 和 UC 伯克利的研究人员发现,将该方法用在AI 绘画上," 治疗 " 图像跟输入不完全匹配的情况,效果也奇好——

可以实现高达 47%的改进。

这一刻,AIGC 领域中两类大火的模型,似乎找到了某种 " 共鸣 "。

如何将 RLHF 用于 AI 绘画?

RLHF,全称 "Reinforcement Learning from Human Feedback",是 OpenAI 和 DeepMind 于 2017 年合作开发的一种强化学习技术。

正如其名,RLHF 就是用人类对模型输出结果的评价(即反馈)来直接优化模型,在 LLM 中,它可以使得 " 模型价值观 " 更符合人类价值观。

而在 AI 图像生成模型中,它可以让生成图像与文本提示得到充分对齐。

具体而言,首先,收集人类反馈数据。

在这里,研究人员一共生成了 27000 余个 " 文本图像对 ",然后让一些人类来打分。

为了简单起见,文本提示只包括以下四种类别,分别关乎数量、颜色、背景和混合选项;人类的反馈则只分 " 好 "、" 坏 " 与 " 不知道(skip)"。

这一步,就是利用刚刚获得的人类评价组成的数据集,训练出奖励函数,然后用该函数来预测人类对模型输出的满意度(公式红色部分)。

这样,模型就知道自己的结果究竟有几分符合文本。

也就是当图像生成完成后,模型再给一堆文本,但其中只有一个是原始文本,让奖励模型 " 自己检查 " 图像是否跟该文本相匹配。

这种逆向操作可以让效果得到 " 双重保险 "(可以辅助下图中的 step2 进行理解)。

即通过奖励加权最大似然估计(reward-weighted likelihood maximization)(下公式第一项),更新文本 - 图像生成模型。

效果提升 47%,但清晰度下滑 5%

如下一系列效果所示,相比原始的 Stable Diffusion,用 RLHF 微调过后的模型可以:

(1)更正确地 get 文本里的 " 两只 " 和 " 绿色 ";

不过,代价是失去了 5% 的图像清晰度。

关于作者

本文一共 9 位作者。

Liu Hao,UC 伯克利在读博士生,主要研究兴趣为反馈神经网络。

Du Yuqing,同 UC 伯克利博士在读,主要研究方向为无监督强化学习方法。

Shixiang Shane Gu ( 顾世翔 ) ,通讯作者,本科师从三巨头之一 Hinton,博士毕业于剑桥大学。

值得一提的是,写这篇文章时他还是谷歌人,如今已经跳槽至 OpenAI,并在那里直接向 ChatGPT 负责人报告。

论文地址:

https://arxiv.org/abs/2302.12192

参考链接:

[ 1 ] https://twitter.com/kimin_le2/status/1629158733736718336

[ 2 ] https://openai.com/blog/instruction-following/

推荐内容