打「推理补丁」之外，实现更强的AI还有哪些不一样的思路？

机器之心PRO · 会员通讯 Week 49

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 在推理阶段给大模型「打补丁」之外，实现更强 AI 还有哪些不一样的思路？

o1 离 AGI 还有多远？在推理阶段给大模型「打补丁」之外，实现 AGI 还有哪些思路？流式深度 RL 方法有哪些优势？对 Richard Sutton 推崇的持续学习有何影响？苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径？存在哪些挑战？...

2. 皮卡丘的世界模型会比 Meta 先解锁 AR 元宇宙吗？

元宇宙的热度被又被世界模型拉回来了？All in 的 Meta 有哪些技术储备？World Labs 的大世界模型会更有机会吗？谷歌DeepMind 新发的 Genie 2 有多强？用宝可梦Go训练的世界模型会更强吗？...

3. 诺奖得主论坛：AI4S 下一步还要跨过什么坎？

诺奖的主都聊了哪些AI4S的话题？Hassabis最喜欢AlphaFold 的哪些用例？GeNome 对材料学有什么影响？AI4S在应用中有哪些「副作用」？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 8 项，国外方面 12 项。

本期通讯总计 23477 字，可免费试读至 7%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 打「推理补丁」之外，实现更强的AI还有哪些不一样的思路？

日期：11 月 2 日

事件：o1 模型的推出将研究方向从预训练带向了推理层，尽管给大模型「打补丁」的方式取得了一定效果，但无限地通过扩展测试时间计算，就能实现通用人工智能吗？规模能扩展到什么程度？计算资源、时间成本问题如何解决？无限的知识和数据是否意味着大模型具有真实的泛化能力？

强化学习之父 Richard Sutton 这样形容当下的业内研究方向，「就像是在路灯下找钥匙的问题，我丢了钥匙会在路灯下找，因为那里能看见，尽管那可能不是钥匙所在的地方。」近期，有两项新的研究工作跳出了「在路灯下找钥匙」的视野范围，指出了实现更强 AI 的两个可能方向。

o1 还不能称为 AGI：推理计算之外，实现 AGI 还有哪些不一样的思路？

1、近期，OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型，如 R1-Lite（DeepSeek）、k0-math（月之暗面）、QwQ（阿里）等。AI 业内的关注点逐渐转向推理层。

2、尽管 o1 等推理模型在复杂推理等方面的能力显著提升，但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑，从而输出正确结论。「测试时训练」技术像是一块「补丁」，通过给大模型一个「临时记忆」，临时调整反应，让大模型能够回答问题。尽管大模型能够输出正确的答案，但并不意味着其能真正理解或具有推理能力。

3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外，AI 业内的大佬们提出了一些不同的思路，如 Yann Lecun 提出的世界模型路线，Richard Sutton 提出的持续学习等。

4、近期，有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围，指出了实现更强 AI 的两个可能思路。

① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作，提出了一个新的深度强化学习算法「stream-x」，解决了流式深度强化学习中的流式障碍问题，为持续学习和终身学习提供了支撑；

② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法，即「苏格拉底式学习」，突破了传统训练数据的局限，是实现自主且自我完善的人工智能的重要途径。

阿尔伯塔的 stream-x 算法：解决「流式障碍」，为实现持续学习提供可能

1、阿尔伯塔大学近期的一项新工作，得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习（Deep Reinforcement Learning，DRL）算法「stream-x」，解决了流式深度强化学习中的流式障碍问题。[1]

① 「stream-x」算法能够在没有经验回放（Experience Replay）、目标网络（Target Networks）或批量更新（Batch Updates）的情况下进行有效的学习。

② 研究者发现，「stream AC」算法能够在没有存储和重用样本的情况下，通过实时处理数据流，实现与 PPO 算法相近的学习效果和任务性能，甚至在某些复杂环境中超越了批量强化学习算法的性能。

2、相比于目前主流的批量学习，流式学习有很大的发展空间，适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域，流式强化学习的优势更大。

打「推理补丁」之外，实现更强的AI还有哪些不一样的思路？

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

发表评论取消回复

打「推理补丁」之外，实现更强的AI还有哪些不一样的思路？

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

相关文章

发表评论取消回复