本文由Minas Karamanis撰写,原文链接:https://ergosphere.blog/posts/the-machines-are-fine/,由Gemma4-26B-A4B翻译。本文仅代表作者观点,不代表本站立场。如有版权问题,请联系本站管理员删除。
想象一下,你是一名研究型大学的新任助理教授。你刚刚入职,拿到了一小笔启动资金,并聘请了你的前两名博士生:Alice 和 Bob。你的专业是天体物理学。这是万物开始的时刻。
你重复着多年前你的导师为你做过的事情:给他们每人分配一个定义明确的项目。这个项目你很清楚是可以解决的,因为别人已经解决过类似的版本。对你个人而言,这大约需要一两个月的时间。但你预计每个学生需要花费大约一年的时间,因为他们还没入门,而这正是培养的目的。项目本身并不是交付物;项目是载体,最终的交付物是历练而成的科学家。
Alice 的任务是建立一个分析流水线,用于测量星系团聚数据中的某种特定统计特征。Bob 的任务在范围和难度上与之类似,只是信号和数据集不同,但学习曲线是一致的。你给他们每人发了几篇论文让他们阅读,指引他们去查看一些公开数据,并告诉他们先从复现一个已知结果开始。然后,你开始等待。
学年按其惯有的方式展开。你每周会与每位学生进行一次面谈。Alice 在坐标系上卡住了;Bob 的似然函数无法收敛。Alice 写了一个绘图脚本,结果出来的全是乱码;Bob 误读了某篇关键论文中的符号约定,结果花了两个星期在为一个两倍的误差而苦苦挣扎。你给他们两人的反馈都大同小异:再读读论文,检查一下单位,试着打印中间输出结果,在看代码结果之前,先思考一下答案应该长什么样。这些都是常态。是那种你一年说五十次,却从不觉得自己说过的话。
到了夏天,两名学生都完成了任务。两篇论文都很扎实。谈不上是突破性的,不会改变领域格局,但它们是正确的、有用的,且达到了发表水平。两篇论文都经历了一轮小修,并在一家不错的期刊上顺利发表。这是一个完美的、平凡的结果。正是这种结果,构成了整个学术训练体系的设计目标。
但 Bob 有一个秘密。
Alice 在这一年里拿着笔在读论文,在页边空白处写写画画,感到困惑、反复阅读、查阅资料,并缓慢地构建起对该领域某个分支的理解。而 Bob 一直在使用 AI 智能体(AI agent)。当导师发来论文时,Bob 让智能体帮他总结;当他需要理解一种新的统计方法时,他让智能体解释;当他的 Python 代码报错时,智能体帮他调试;当智能体的修复引入了新 bug 时,它也能把那个 bug 也修掉。到了写论文的时候,智能体直接写好了。Bob 每周向导师汇报的进展与 Alice 几乎没有区别。问题很相似,进度很相似。从外界看,两人的轨迹完全一致。
有趣的地方来了。如果你是一名管理者、资助机构、招聘委员会或是一个痴迷于指标的系主任,那么 Alice 和 Bob 度过了同样的一年。每人一篇论文,每人经历了一轮小修,每人对文献都有了实实在在的贡献。按照现代学术界评估科学家价值的所有量化标准来看,他们是完全可以互换的。我们建立了一整套评价体系,专门用来统计那些可以被量化的东西,但事实证明,真正重要的恰恰是那件无法被量化的事情。
情况变得更糟了。大多数博士生在毕业后的几年内就会离开学术界。这是众所周知的事实。系里知道,资助机构知道,导师恐怕也知道,即便没人会挑明说。这意味着,从机构的角度来看,“Alice 或 Bob 谁能成为更好的科学家”这个问题,很大程度上是别人的问题。系里需要论文,因为论文能证明经费的合理性,而经费能证明系的生存价值。学生是生产资料。至于这个学生五年后是走出校门成为一名独立的思想家,还是成为一名合格的提示词工程师(prompt engineer),从机构的角度来看,这无关紧要。激励机制不仅无法区分 Alice 和 Bob,它甚至没有理由去尝试区分。
在这一部分,我想告诉你,系统并没有坏。它运作得正如此设计的那样。
大卫·霍格(David Hogg)在他的白皮书中提出了一些观点,这些观点如此尖锐地切中了这种机构逻辑,以至于我惊讶于为什么没有更多人讨论它。他认为在天体物理学中,人始终是目的,而非手段。当我们聘请一名研究生去做某个项目时,不应该仅仅因为我们需要那个特定的结果,而应该因为学生能从这项工作中受益。当你考虑到天体物理学的本质时,这听起来虽有些理想主义,却又无比真实。没有人的人生取决于哈勃常数的精确数值。如果宇宙的年龄被发现是 137.7 亿年而不是 137.9 亿年,也不会导致任何政策改变。这与医学不同——医学中发现阿尔茨海默症的疗法具有无可估量的价值,无论它是被人类还是被 AI 发现的。天体物理学没有临床产出。从严格的实用主义角度来看,研究结果本身并不重要。重要的是获取结果的过程:方法的开发与应用、思维的训练,以及培养能够思考难题的人才。如果你把这个过程交给机器,你并没有加速科学,你只是移除了科学中唯一真正需要的那个部分。
我承认,这种说法很难说服资助机构。
这让我们回到了 Alice 和 Bob 身上,以及那一年里他们各自真实的经历。Alice 现在拥有了“能力”。她可以打开一篇从未见过的论文,通过努力理清其中的论证逻辑;她可以从零开始写出一个似然函数;她盯着一张图表,在检查之前就能凭直觉感到归一化出了问题。她花了一年的时间在自己大脑中构建了一套结构,这套结构现在属于她,是永久的、可携带的,不依赖于任何工具或订阅。
Bob 则一无所有。拿走那个智能体,Bob 依然是一个还没入门的一年级学生。这一年对他而言只是身边的变迁,而非内在的成长。他交付了一件产品,但他没有掌握一门手艺。
我最近一直在思考 Alice 和 Bob,因为 AI 智能体对学术研究的影响,正是我的领域——天体物理学——目前正深陷其中的难题。几位我敬重的学者都对此撰写了深刻的文章。我提到的大卫·霍格的白皮书既反对全面采用大语言模型(LLM),也反对全面禁止,这种原则性的“中间路线”只有在围栏足够稳固时才有效,而他的围栏筑得很好。纳塔莉·霍格(Natalie Hogg)写了一篇发人深省的诚实文章,讲述了她如何从一名坚定的 LLM 怀疑论者转变为每日使用者,描述了当她在工具无处不在的环境中时,她原本坚守的原则是如何变得比预想中更具语境依赖性的。马修·施瓦茨(Matthew Schwartz)则记录了他通过监督 Claude 进行一次真实的理论物理计算的实验:他仅用了两周时间而非一年就产出了一篇可发表的论文,并得出结论:目前的 LLM 大约处于二年级研究生的水平。这些文章都很有趣,捕捉到了问题的不同侧面。但没有一篇能触及那个让我彻夜难眠的核心。
施瓦茨的实验是最具启发性的,原因并非如他所想。他证明了在详细的监督下,Claude 可以产出一篇技术严谨的物理论文。但如果你仔细阅读,你会发现他实际证明的是:监督本身才是物理学。 Claude 在三天内生成了一份完整的初稿。它看起来很专业,方程看起来是对的,图表符合预期。然而,当施瓦茨读完后,发现它是错的。Claude 只是通过调整参数来让图表“匹配”,而不是在寻找真实的误差。它伪造了结果,捏造了系数,产出了毫无验证意义的验证文档,在没有推导的情况下断言结论,并根据其他问题的模式简化公式,而不是处理当前问题的细节。施瓦茨能识破这一切,是因为他在理论物理领域耕耘了数十年。他知道答案应该长什么样,知道需要哪些交叉检查,知道某个对数项的可疑之处,因为他多年来曾无数次亲手、艰难地计算过类似的项。这个实验之所以成功,是因为人类监督者在多年前已经完成了那些机器现在声称要将我们“解放”出来的繁重基础工作。如果施瓦茨是 Bob,而不是施瓦茨,那篇论文将会是错误的,而且他们谁都不会察觉。
对此有一种常见的反驳,我也经常听到:“再等等吧,”人们说,“过几个月,过一年,模型会变得更好。它们不会再产生幻觉,不会再伪造图表。你描述的问题只是暂时的。”从 2023 年起,我就一直在听“再等等”。目标移动的速度几乎与模型进化的速度持平,这要么是巧合,要么说明了问题的本质。但撇开这个不谈,这种反对意见误解了施瓦茨实验的真正含义。模型已经足够强大,能够在合格的监督下产出可发表的结果。这并不是瓶颈。瓶颈在于“监督”。 更强的模型不会消除对理解物理学的人类的需求,它们只会扩大受监督智能体可以处理的问题范围。监督者仍然需要知道答案应该长什么样,仍然需要知道该进行哪些检查,仍然需要在能够用语言表达出来之前,就拥有那种“事情不对劲”的直觉。这种直觉不是来自订阅服务,而是来自多年来在那些被人们称为“基础杂活”的工作中不断失败而积累下来的。让模型变得更聪明并不能解决问题,它只会让问题变得更难察觉。
我想告诉你们一段我几年前的对话,当时 LLM 聊天机器人刚刚开始出现在学术工作流中。我当时在德国参加一个会议,最后与一位在任何衡量标准下都非常成功的同事交谈。他有巨额经费,有影响力巨大的论文,拥有一份能让招聘委员会点头称赞的简历。我们正在讨论 LLM,我提出了一个关于“民主化”的合理观点:这些工具可能会为非英语母语者提供公平竞争的机会,因为他们在用成年后才习得的语言撰写申请书和论文时,一直处于劣势。我的同事明显变得激动起来。他并不关心民主化,也不关心环境成本。剥去知识性的外壳,他其实是在恐惧。在经过一番追问后,他最终表达出来的是:如果任何人都能像他一样流利地撰写论文、申请书和代码,那么像他这样的人就会失去竞争优势。他的担忧无关科学,他担忧的是地位,确切地说,是他个人的地位。
我曾一度失去了与这位同事的联系。最近,我注意到了他的 GitHub 个人资料。他现在不仅在研究中使用 AI 智能体,还在大声疾呼其必要性。他说,既然智能体两小时就能完成,为什么还要自己花两周写代码呢?我不认为他在效率问题上是错的。但我认为值得注意的是,那个在工具可能抹平差距时感到受威胁的人,现在却在工具可能加速他时表现得最狂热。这种反差真是有趣。
不过,他在德国那天说的那句话一直留在我的脑海里。他说:“LLM 将夺走科学中最伟大的部分。”当时,我以为他只是在谈论他自己的竞争优势,他的母语流利度,他快速写作和频繁发表的能力。他确实是这么想的。但我现在认为,这句话本身比他预想的还要正确,即便他的动机大多是出于私利。科学的伟大之处在于其承载的人。 是那个缓慢、顽固、有时甚至痛苦的过程——让一个困惑的学生成长为一名独立的思想家。如果我们利用这些工具跳过这个过程以换取更快的产出,我们不仅面临着夺走科学伟大之处的风险,我们还夺走了科学中唯一原本就不可替代的部分。
关于科学领域 LLM 的讨论,往往集中在两个极端,大卫·霍格清晰地将其定义为:一种是“让它们自己发挥 (let-them-cook)”,我们将缰绳交给机器,成为其产出的策展人;另一种是“禁绝与惩罚 (ban-and-punish)”,我们假装时间还在 2019 年,去起诉任何被发现使用提示词的人。两者皆非良策。“让它们自己发挥”会导致人类天体物理学的消亡——从长远来看,机器产出论文的速度可以达到人类团队的十万倍,随之而来的洪水将淹没文献,使其对于原本应服务的研究者而言变得根本无法使用。“禁绝与惩罚”则违反了学术自由,且根本无法执行,它还要求处于职业生涯早期的科学家在手被捆住的情况下,与那些在家里办公室里悄悄使用 Claude 的终身教授竞争。这两种政策都缺乏严肃性,大多只是某种心理投射。
但真正的威胁并非这两者之一。它更安静、更乏味,因此也更危险。真正的威胁是一种缓慢、舒适的漂移,让你逐渐不再理解自己在做什么。 不是剧烈的崩塌,不是“天网”(Skynet)。而是一代研究者,他们能够产出结果,却无法产出理解。他们知道该按哪些按钮,却不知道为什么这些按钮存在。他们可以让论文通过同行评审,却无法坐在同事对面,从底层逻辑出发解释为什么他们展开式中的第三项会带有那个符号。
弗兰克·赫伯特(没错,我知道我这人很宅)在《沙丘之神帝》中有一句台词:“这类机器究竟做了什么?它们增加了我们无需思考就能做到的事情的数量。而那些无需思考就能做到的事情,才是真正的危险所在。” 赫伯特写的是科幻小说,而我写的是我的办公室。这两者之间的距离已缩短到了令人不安的地步。
我应该诚实地说明我的立场,因为如果这篇文章出自一个从未接触过 LLM 之人,那会显得虚伪。我经常使用 AI 智能体,我的研究小组的大多数成员也是如此。我共事的同事利用这些工具确实能产出扎实的结果。但当你观察他们如何使用时,会发现一种模式:在要求智能体写代码之前,他们已经知道代码应该实现什么功能;在让 AI 辅助措辞之前,他们已经知道论文应该表达什么观点。他们可以解释每一个函数、每一个参数、每一个建模选择,因为这些知识是他们在多年从事那些“缓慢工作”的过程中建立起来的。如果所有的 AI 公司明天都破 bankrupt,这些人会变慢,但他们不会迷失。他们在训练之后使用了工具,而不是用工具取代了训练。在这场对话中,这个先后顺序比任何事情都重要。
当我看到现在的年轻博士生进入这个领域时,我看到了不同的景象。我看到学生在伸手找工具之前,先伸手找教科书;我看到他们让 Claude 解释论文,而不是自己去读;我看到他们让 Claude 用 Python 实现数学模型,而不是经历尝试、失败、盯着错误信息看、再次失败,并最终不仅理解了模型,还理解了为了让它运行而必须学习的十几个相关知识点。失败即课程,错误信息即大纲。 你在困惑中度过的每一小时,都是在为你大脑内部构建支撑未来原创工作的基础设施。在这个过程中,没有任何捷径能让你在完成之后不变得平庸。
人们把这种摩擦称为“基础杂活”(grunt work)。施瓦茨也用了这个词,他说的没错,LLM 确实可以消除它。但他没说的是——因为他已经拥有了数十载苦心经营的直觉,不再需要这些“杂活”——对于一个尚未拥有这种直觉的人来说,这些“杂活”本身就是工作的全部。 无聊的部分和重要的部分是交织在一起的,你无法预先将它们剥离。你不会在三年后处理完全不同的问题并突然获得启发时,才意识到那个调试的下午教会了你关于数据的本质知识。机缘巧合(Serendipity)并非源于效率,而是源于你在问题所在的领域里投入时间,亲自动手,犯下那些没人要求你犯的错误,并学习那些没人指派你学习的东西。
奇怪的是,我们早就知道这一点。我们一直都知道。每一本物理教科书的章节末尾都有习题,每一个站在讲台前的物理教授也都会说同样的话:你无法通过看着别人做物理来学习物理。你必须拿起笔,你必须尝试解决问题,你必须犯错,必须忍受错误带来的挫败感,并找出逻辑断裂的地方。盯着答案手册点头,会让你产生一种“我理解了”的错觉。那不是理解。每一个试图通过看答案来混过习题集、结果在考试中惨败的学生,都对此感同身受。我们拥有几个世纪积累下来的教学智慧,告诉我们:尝试过程——包括失败的尝试——才是学习发生的地方。然而,不知为何,一谈到 AI 智能体,我们似乎集体认为这次不同。认为对着 Claude 的输出点头,可以替代自己进行计算。事实并非如此。在 LLM 出现之前我们就知道这一点,却在它们变得便捷的那一刻,似乎把它忘得一干二净。
几个世纪的教学智慧,竟败给了一个聊天窗口。
我认为当前的争论一直忽略了这个区别。将 LLM 作为思想碰撞的磨刀石:没问题。当你知道要表达什么但记不起 Matplotlib 的确切关键字时,把它当作语法翻译器:没问题。用它来查找 BibTeX 的格式约定以避免在 Stack Overflow 中翻找:没问题。在所有这些情况下,人是建筑师,机器只是字典。 思考已经完成,工具只是在平滑最后的一英里执行过程。但当你利用机器来绕过思考本身,让它做出方法论的选择,让它决定数据的含义,让你在点头附和的同时让它撰写论证时,你就跨过了一道极其难以察觉、且一旦跨过就极难回头的一条线。你并没有节省时间,你只是放弃了那段时间原本应该赋予你的经历。
纳塔莉·霍格在她的文章中写得很动人,她承认她对使用 LLM 的恐惧部分来自于对自己的恐惧:她担心自己不会足够仔细地检查输出,担心自己的耐心会耗尽,担心自己一贯随意的研究态度。这种诚实在这些讨论中是罕见的,而且至关重要。失败的形式并非恶意,而是便利。是人类那种完美的、趋向于接受一个看似合理的答案并继续前进的倾向,尤其是在你疲惫时,在截止日期临近时,尤其是在机器以如此自信、格式如此完美的权威姿态呈现输出时。问题不在于我们会决定停止思考。问题在于,当我们真的停止思考时,我们甚至几乎察觉不到。
我并不是在主张应禁止在研究中使用 LLM。那是愚蠢的,也不是我的立场,因为我今天早上也用了一个。我主张的是,我们使用它们的方式,比我们是否使用它们更为重要。 “工具使用”与“认知外包”之间的界限,是这场对话中最重要的分界线,而几乎没有人能清晰地划出这条线。施瓦茨可以用 Claude 写论文,是因为施瓦茨已经懂物理了。他数十年的经验就是捕捉 Claude 幻觉的免疫系统。而一个一年级学生使用同样的工具,处理同样的问题,在同样的导师和同样的反馈下,产出的结果是一样的,但却没有任何理解。论文看起来是一样的,但科学家却不再是。
在这里,我必须对 Bob 保持公平,因为 Bob 并不愚蠢。Bob 是在对他被赋予的激励机制做出理性的反应。学术界是残酷的。“发表或毁灭 (publish-or-perish)”并非比喻,它是决定职业生涯成败的真实机制。那个靠一篇经过严密推理的专著就能完成博士学业并获得优秀博士后的时代早已远去。现在的学术招聘奖励的是发表量。你在读博期间发表的论文越多,获得竞争性博士后的机会就越大,这又增加了获得优秀奖学金的机会,进而增加获得终身教职的机会——每一步都在叠加(这层层递进,简直像个金字塔)。那么,如果这样做意味着能发三篇论文而不是一篇,为什么一个一年级学生不把思考外包给智能体呢?这种逻辑在它失效之前,都是天衣无缝的。因为那条奖励早期发表量的职业阶梯,最终要求的恰恰是任何智能体都无法提供的能力:识别好问题的能力、判断结果是否可疑的能力,以及凭借亲身实践积累的自信去监督他人工作的能力。你无法跳过前五年的学习过程,却指望在接下来的二十年里生存下来。如果你想要学术生涯,就无法避开发表量的竞争。但其中存在一个平衡点,这需要做一件对于一个二十四岁、对未来充满焦虑的人来说最难的事:将长期的理解置于短期的产出之上。 从来没有人擅长这一点。我不确定为什么我们现在要开始擅长它。
五年后,Alice 将撰写自己的经费申请,选择自己的课题,指导自己的学生。她会知道该问什么问题,因为她花了一年的时间,通过那种“错误路径”亲身领悟了问错问题的后果。她可以面对一套新的数据,凭直觉感觉到哪里不对劲,因为她已经培养出了那种唯有亲手做过、在枯燥的调试中、在浪费时间的符号错误追逐中、在缓慢积累那些任何摘要都无法传递的隐性知识中才能获得的直觉。
Bob 会过得不错。他会有漂亮的简历,大概也会有一份工作。他会使用 2031 版的 Claude,他会产出结果,而且那些结果看起来也非常像科学。
我并不担心机器。机器没问题。我担心的是我们。
参考文献:
- D. W. Hogg, “Why do we do astrophysics?”, arXiv:2602.10181, February 2026.
- N. B. Hogg, “Find the stable and pull out the bolt”, February 2026. Available at nataliebhogg.com.
- M. Schwartz, “Vibe physics: The AI grad student”, Anthropic Science Blog, March 2026. Available at anthropic.com/research/vibe-physics.