机器之心PRO · 会员通讯 Week 49

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 在推理阶段给大模型「打补丁」之外,实现更强 AI 还有哪些不一样的思路?

o1 离 AGI 还有多远?在推理阶段给大模型「打补丁」之外,实现 AGI 还有哪些思路?流式深度 RL 方法有哪些优势?对 Richard Sutton 推崇的持续学习有何影响?苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径?存在哪些挑战?...

2. 皮卡丘的世界模型会比 Meta 先解锁 AR 元宇宙吗?

元宇宙的热度被又被世界模型拉回来了?All in 的 Meta 有哪些技术储备?World Labs 的大世界模型会更有机会吗?谷歌DeepMind 新发的 Genie 2 有多强?用宝可梦Go训练的世界模型会更强吗?...

3. 诺奖得主论坛:AI4S 下一步还要跨过什么坎?

诺奖的主都聊了哪些AI4S的话题?Hassabis最喜欢AlphaFold 的哪些用例?GeNome 对材料学有什么影响?AI4S在应用中有哪些「副作用」?...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 8 项,国外方面 12 项。

本期通讯总计 23477 字,可免费试读至 7% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

打「推理补丁」之外,实现更强的AI还有哪些不一样的思路?  第1张

要事解读① 打「推理补丁」之外,实现更强的AI还有哪些不一样的思路?

日期:11 月 2 日

事件:o1 模型的推出将研究方向从预训练带向了推理层,尽管给大模型「打补丁」的方式取得了一定效果,但无限地通过扩展测试时间计算,就能实现通用人工智能吗?规模能扩展到什么程度?计算资源、时间成本问题如何解决?无限的知识和数据是否意味着大模型具有真实的泛化能力?

强化学习之父 Richard Sutton 这样形容当下的业内研究方向,「就像是在路灯下找钥匙的问题,我丢了钥匙会在路灯下找,因为那里能看见,尽管那可能不是钥匙所在的地方。」近期,有两项新的研究工作跳出了「在路灯下找钥匙」的视野范围,指出了实现更强 AI 的两个可能方向。

o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?

1、近期,OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 业内的关注点逐渐转向推理层。

2、 尽管 o1 等推理模型在复杂推理等方面的能力显著提升,但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑,从而输出正确结论。「测试时训练」技术像是一块「补丁」,通过给大模型一个「临时记忆」,临时调整反应,让大模型能够回答问题。尽管大模型能够输出正确的答案,但并不意味着其能真正理解或具有推理能力。

3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外,AI 业内的大佬们提出了一些不同的思路,如 Yann Lecun 提出的世界模型路线,Richard Sutton 提出的持续学习等。

4、近期,有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围,指出了实现更强 AI 的两个可能思路。

① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作,提出了一个新的深度强化学习算法「stream-x」,解决了流式深度强化学习中的流式障碍问题,为持续学习和终身学习提供了支撑;

② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法,即「苏格拉底式学习」,突破了传统训练数据的局限,是实现自主且自我完善的人工智能的重要途径。

阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能

1、阿尔伯塔大学近期的一项新工作,得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习(Deep Reinforcement Learning,DRL)算法「stream-x」,解决了流式深度强化学习中的流式障碍问题。[1]

① 「stream-x」算法能够在没有经验回放(Experience Replay)、目标网络(Target Networks)或批量更新(Batch Updates)的情况下进行有效的学习。

② 研究者发现,「stream AC」算法能够在没有存储和重用样本的情况下,通过实时处理数据流,实现与 PPO 算法相近的学习效果和任务性能,甚至在某些复杂环境中超越了批量强化学习算法的性能。

2、相比于目前主流的批量学习,流式学习有很大的发展空间,适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域,流式强化学习的优势更大。