Origin:The Second Half – Shunyu Yao – 姚顺雨
一句话总结:我们正处于人工智能的中场休息阶段。
几十年来,人工智能的重点一直是开发新的训练方法和模型。这一策略卓有成效:从击败国际象棋和围棋世界冠军,到在SAT和司法考试中超越大多数人类,再到获得IMO和IOI金牌。这些载入史册的里程碑——深蓝、AlphaGo、GPT-4和o系列模型——背后是人工智能方法的根本性创新:搜索、深度强化学习、规模化和推理能力。一切都在随时间不断进步。
那么现在突然有什么不同?
用三个词概括:强化学习终于奏效了。更准确地说:强化学习终于实现了泛化能力。经过多次重大探索和里程碑的积累,我们找到了一套可行方案,能够利用语言和推理解决广泛的强化学习任务。哪怕在一年前,如果你告诉大多数AI研究人员,单一方案就能处理软件工程、创意写作、IMO级别数学、键鼠操作和长文本问答——他们会嘲笑你在妄想。这些任务每个都极其困难,许多研究者整个博士生涯都只专注于其中一个细分领域。
但它确实实现了。
那么接下来是什么?从现在开始的人工智能下半场,焦点将从解决问题转向定义问题。在这个新时代,评估比训练更重要。我们不再只是问"能否训练模型解决X?",而是问"应该训练AI做什么?如何衡量真正的进步?"要在这个下半场蓬勃发展,我们需要及时转变思维方式和技能组合,可能更接近产品经理的角色。
上半场
要理解上半场,看看其中的赢家。你认为迄今为止最具影响力的人工智能论文有哪些?
我在斯坦福224N课程中做过这个测试,答案并不意外:Transformer、AlexNet、GPT-3等。这些论文的共同点是什么?它们提出了训练更好模型的基础性突破。但同时,它们都通过在某个基准测试上展示(显著)改进而成功发表论文。
但有个潜在的共性:这些"赢家"都是训练方法或模型,而非基准测试或任务。甚至可以说最具影响力的基准测试ImageNet,其引用量也不到AlexNet的三分之一。方法与基准测试的对比在其他地方更为悬殊——例如Transformer的主要基准测试WMT’14,其研讨会报告约1300次引用,而Transformer的引用超过16万次。
这说明了上半场的游戏规则:专注于构建新模型和方法,评估和基准测试是次要的(尽管对论文体系运作是必要的)。
为什么?一个重要原因是,在AI上半场,方法比任务更难且更令人兴奋。从零开始创建新算法或模型架构——比如反向传播算法、卷积网络(AlexNet)或GPT-3使用的Transformer——需要非凡的洞察力和工程能力。相比之下,为AI定义任务通常感觉更直接:我们只是把人类已经在做的任务(如翻译、图像识别或下棋)转化为基准测试。不需要太多洞察力甚至工程能力。
方法也往往比单个任务更具普适性和广泛应用价值。例如Transformer架构最终推动了CV、NLP、RL等多个领域的进步——远超它最初证明自己的单一数据集(WMT’14翻译)。一个优秀的新方法可以攻克许多不同基准测试,因为它简单而通用,因此影响力往往超越单个任务。
这套规则运行了几十年,催生了改变世界的想法和突破,表现为各个领域基准测试成绩的不断提升。为什么游戏规则会改变?因为这些想法和突破的积累,在创建解决任务的可行方案上产生了质的变化。
可行方案
这个方案是什么?其要素包括大规模语言预训练、规模(数据和计算量)以及推理和行动的理念。这些可能听起来像你在旧金山每天听到的流行词,但为什么称它们为方案?
我们可以通过强化学习(RL)的视角来理解这一点,RL常被视为AI的"终极游戏"——毕竟RL在理论上保证能赢得游戏,而经验上很难想象任何超人类系统(如AlphaGo)能缺少RL。
在RL中,有三个关键组成部分:算法、环境和先验知识。长期以来,RL研究者主要关注算法(如REINFORCE、DQN、TD学习、演员-评论家、PPO、TRPO…)——智能体如何学习的智力核心——而将环境和先验知识视为固定或最小化。例如Sutton和Barto的经典教材全是关于算法,几乎没有涉及环境或先验知识。
然而在深度RL时代,环境的重要性在实践中变得明显:一个算法的性能通常高度依赖于它开发和测试的环境。如果忽视环境,你可能构建出一个只在玩具环境中表现出色的"最优"算法。那么我们为什么不先确定真正想解决的环境,再寻找最适合的算法?
这正是OpenAI最初的计划。它构建了gym,一个用于各种游戏的标准RL环境,然后是World of Bits和Universe项目,试图将互联网或计算机变成游戏。好计划,不是吗?一旦我们将所有数字世界转化为环境,用智能RL算法解决它,我们就拥有了数字AGI。
好计划,但并未完全奏效。OpenAI在这条道路上取得了巨大进展,用RL解决了Dota、机械手等。但它从未接近解决计算机使用或网页导航问题,且在一个领域有效的RL智能体无法迁移到另一个领域。缺少了什么。
直到GPT-2或GPT-3出现后,才发现缺失的部分是先验知识。你需要强大的语言预训练将通用常识和语言知识提炼到模型中,然后可以微调成为网页(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。结果发现RL最重要的部分可能甚至不是RL算法或环境,而是可以通过与RL完全无关的方式获得的先验知识。
语言预训练为聊天创建了良好的先验知识,但对控制计算机或玩电子游戏效果不佳。为什么?这些领域与互联网文本的分布差距较大,在这些领域简单进行SFT/RL泛化效果差。我在2019年注意到这个问题,当时GPT-2刚发布,我在其基础上进行SFT/RL来解决基于文本的游戏——CALM是世界上第一个通过预训练语言模型构建的智能体。但智能体需要数百万RL步骤才能攻克一个游戏,且无法迁移到新游戏。虽然这正是RL的特点,对RL研究者来说并不奇怪,但我觉得奇怪,因为我们人类可以轻松玩新游戏且零样本表现就好得多。然后我迎来了人生中第一个顿悟时刻——我们能泛化是因为我们可以选择做的不只是"去2号柜子"或"用1号钥匙打开3号箱子"或"用剑杀死地牢怪物",我们还可以思考诸如"地牢很危险,我需要武器战斗。没有可见武器,也许需要在锁着的盒子或箱子里找。3号箱子在2号柜子里,我先去那里打开它"。
思考或推理是一种奇怪的行动——它不直接影响外部世界,但推理空间是开放且组合无限的——你可以思考一个词、一句话、一整段文字或10000个随机英文单词,但你周围的世界不会立即改变。在经典RL理论中,这是糟糕的交易,会使决策变得不可能。想象你需要从两个盒子中选择一个,只有一个盒子里有100万美元,另一个是空的。你预期赚50万美元。现在想象我增加无限个空盒子。你预期赚不到钱。但通过在RL环境中将推理加入行动空间,我们利用语言预训练的先验知识实现泛化,并能够为不同决策提供灵活的计算资源。这真是神奇的事情,我抱歉在此未能完全解释清楚,可能需要另写一篇博客文章专门讨论。欢迎阅读ReAct了解智能体推理的原始故事和我当时的感受。目前,我的直观解释是:尽管你增加了无限空盒子,但你一生中在各种游戏中见过它们,选择这些盒子让你为任何给定游戏更好地选择有钱的盒子做好准备。我的抽象解释是:语言通过智能体中的推理实现泛化。
一旦我们有了正确的RL先验知识(语言预训练)和RL环境(将语言推理作为行动加入),RL算法可能是最微不足道的部分。于是我们有了o系列、R1、深度研究、计算机使用智能体,以及更多即将到来的成果。多么讽刺的转折!长期以来RL研究者对算法的关注远超过环境,几乎没人关注先验知识——所有RL实验基本上都是从零开始。但我们花了数十年弯路才意识到也许我们的优先级应该完全反转。
但正如乔布斯所说:你无法前瞻性地连接这些点;只有回顾时才能连接它们。
下半场
这个方案正在彻底改变游戏规则。回顾上半场的游戏:
• 我们开发新颖的训练方法或模型来攻克基准测试
• 我们创建更难的基准测试并继续循环
这个游戏正在被破坏,因为:
• 该方案已基本标准化和工业化基准测试的攻克,不需要太多新想法。随着方案的良好扩展和泛化,你对特定任务的新方法可能提升5%,而下一个o系列模型不专门针对它就能提升30%
• 即使我们创建更难的基准测试,很快(且越来越快)它们就会被方案解决。我的同事Jason Wei制作了一张精美的图表很好地展示了这一趋势:
那么下半场还剩下什么可玩?如果不再需要新方法,更难的基准测试只会越来越快被解决,我们该做什么?
我认为我们应该从根本上重新思考评估。这不仅意味着创建新的更难的基准测试,还要从根本上质疑现有的评估设置并创建新的,迫使我们发明超越现有方案的新方法。这很难,因为人类有惯性,很少质疑基本假设——你会理所当然地接受它们,没意识到它们是假设而非定律。
为了解释惯性,假设你发明了基于人类考试的最成功评估之一。这在2021年是非常大胆的想法,但3年后它饱和了。你会怎么做?很可能是创建更难的考试。或者假设你解决了简单编码任务。你会怎么做?很可能是寻找更难的编码任务来解决,直到达到IOI金牌水平。
惯性是自然的,但问题在于。AI已在国际象棋和围棋上击败世界冠军,在SAT和司法考试中超越大多数人类,达到IOI和IMO金牌水平。但世界变化不大,至少从经济和GDP来看。
我称之为效用问题,并认为这是AI最重要的问题。
也许我们很快会解决效用问题,也许不会。无论如何,这个问题的根源可能简单得具有欺骗性:我们的评估设置在许多基本方面与现实世界设置不同。举两个例子:
• 评估"应该"自动运行,因此通常智能体接收任务输入,自主执行操作,然后获得任务奖励。但实际上,智能体必须在整个任务中与人类互动——你不会只是给客服发一条超长消息,等待10分钟,然后期望得到详细回复解决一切。通过质疑这种设置,发明了新的基准测试,要么让真实人类参与(如Chatbot Arena),要么在循环中加入用户模拟(如tau-bench)。
• 评估"应该"独立同分布运行。如果你有包含500个任务的测试集,你独立运行每个任务,平均任务指标,得到整体指标。但实际上,你是顺序而非并行解决任务。谷歌SWE随着对代码库更熟悉而越来越擅长解决google3问题,但SWE智能体解决同一代码库的许多问题却没有获得这种熟悉度。我们显然需要长期记忆方法(这里和这里),但学术界没有合适的基准测试来证明其必要性,甚至没有质疑作为机器学习基础的独立同分布假设的勇气。
这些假设"一直"如此,在上半场开发这些假设下的基准测试没问题,因为当智能水平低时,提高智能通常会提高效用。但现在,通用方案保证在这些假设下有效。所以下半场新游戏的玩法是:
• 我们为现实世界效用开发新颖的评估设置或任务
• 我们用方案解决它们或用新组件增强方案。继续循环
这个游戏很难,因为它陌生。但它令人兴奋。上半场的玩家解决视频游戏和考试,下半场的玩家通过从智能构建有用产品来建立十亿或万亿美元的公司。上半场充满渐进式方法和模型,下半场在某种程度上过滤它们。通用方案会碾压你的渐进式方法,除非你创建打破方案的新假设。然后你就能做真正改变游戏规则的研究。
欢迎来到下半场!
致谢
这篇博客基于我在斯坦福224N和哥伦比亚大学的演讲。我使用OpenAI深度研究来阅读幻灯片并撰写草稿。