Sam Altman 一直在声称 GPT-5 具有博士级智能,现在第一个迹象已经出现。一位 Twitter 用户声称,GPT-5 展示了一些没人见过的新数学,互联网上什么都没有,并且能够使用新的数学算法和方法放弃正确的证明。

实际发生了什么

塞巴斯蒂安·布贝克 (Sebastien Bubeck) 是一位合法的数学家,在 Microsoft 工作,给 GPT-5-Pro 提出了一个凸优化问题。

按 Enter 键或单击以查看大图

这不是教科书上的问题。它不在 arXiv 上。这不是自动完成的。这是一个悬而未决的问题。具体说来

任务是改进与优化中平滑凸函数相关的已知收敛边界,从 的下限移动到更好的下限。1/L

GPT-5-Pro 对其进行了 17 分钟的工作(可能是在带有工具的提示设计设置中),并产生了一个正确的证明,收紧了从 到 的界限。1/L1.5/L

让我再说一遍,模型发现了一个新的、更紧密的不等式

而且它没有产生幻觉。布贝克验证了数学。

这只是病毒式点击诱饵还是真实的?

这是真实的。布贝克证实了这一点,他不是一个追逐转发的互联网影响者,他是一位理论计算机科学家,有着良好的学术记录。

此外,数学检查出来了。第二张图片中的幻灯片是基于协矫顽力布雷格曼散度界限等已知定理的形式推导。

这篇博文的目的不是解释数学,而是表明人工智能不仅可以证明数学,还可以创造新的数学。

这不是魔法。这是已知内容的综合,但即使是人类也无法干净利落地完成这种综合。

所以,是的,GPT-5 没有记住这一点。它为一个部分开放的问题创造了一个新的证明。这并不是最终决定——人类后来将其进一步改进为 ,但 GPT-5 仍然独立地推动了指针。1.75/L

那不是病毒式的废话。这就是研究。

这有多大?

这是巨大的。但并不是因为证明将彻底改变凸优化。

按 Enter 键或单击以查看大图

它之所以重要,是因为:

  • 这是研究级的工作
  • 这不是蛮力。它涉及符号推理、不平等纵和概念数学。
  • 它暗示法学硕士正在超越反刍和检索,进入主动发现

给人一种规模感:这就像问一个研究生一个有点遥不可及的数学问题,然后让他们带着一个通过同行评审的新颖证明回来。

除了研究生是硅做的,从不睡觉,也没有真正理解“理解”是什么意思。

这样做的后果

短期

  • 预计每个研究实验室都会开始测试未解决或半解决的问题的 GPT 模型,尤其是在数学、物理和形式逻辑方面。
  • Lean 和 Coq(证明助手)等工具可能会与 LLM 集成,以自动生成正式证明。
  • 人工智能可能会开始被列为数学论文的合著者(已经在其他领域发生,但这将使其合法化)。

长期

  • 可能会重塑我们进行理论研究的方式。人类可以成为问题制定者,人工智能成为第一通的解决者。
  • 最终可能会导致人类直觉碰壁的领域(例如,高维几何、代数拓扑)的发现。
  • 如果你预测这一趋势:你正在研究的人工智能,如果经过充分的训练和范围,原则上可以找到新的物理学。

隐藏在嗡嗡声之下的危险

按 Enter 键或单击以查看大图

1. 错位的炒作 = 错位的信任

人们将开始过度信任法学硕士。他们会期望每一个答案都是“经过验证的天才”。但大多数时候,GPT 仍然会出现幻觉或过度拟合。这一次成功并不能抵消一千次失败。

2. 无法验证的进展

除了像 Bubeck 这样的人手动验证输出的情况之外,许多人工智能生成的“证明”会不受检查地漂浮。即使其中一个包含细微的缺陷,它也会被纳入未来的工作中,悄悄地毒害数学。

3. 数学直觉的丧失

如果机器开始解决我们无法解决的问题,或者使用我们无法完全理解的技术,我们就有可能将数学变成一个黑匣子——具有讽刺意味的是,数学总是为了避免而生。

4. 称其为 AGI 的诱惑

不是 AGI。它仍然是模式匹配,尽管规模非常大。GPT-5 不明白这个问题。它通过大量的嵌入和推理跃点进行暴力模式化。 情报? 或。 有意识的理解? 不。

结束语

按 Enter 键或单击以查看大图

这不是奇点。但它是沙子上的一条线。

我们刚刚看了一台机器:

  • 阅读一个从未见过的问题
  • 17分钟的原因
  • 提出新的不等式界限
  • 写一个干净的证明
  • 并由顶级人类研究人员验证

如果你没有一点不安,或者至少很感兴趣,你可能没有注意。但不要相信数学只是被机器解决的幻想。更好的框架是这样的:

数学不再是我们一个人的。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐