## 引言 在Claude 4正式发布的当天,我们有幸与Anthropic的核心研发成员Sholto Douglas进行了深度对话。作为最早接触这些前沿模型的研究者之一,Douglas分享了他对新一代AI模型能力、未来发展趋势以及AI对社会影响的独到见解。这次对话涵盖了从技术突破到社会变革的广泛话题,为我们描绘了一个AI快速发展的未来图景。 ## Claude 4:软件工程领域的重大飞跃 **主持人**:Claude 4已经发布,作为最早体验这些模型的人,什么最让你印象深刻? **Douglas**:这些模型在软件工程方面确实又上了一个台阶,特别是Opus模型。我经常遇到这样的情况:即使在大型单体代码库中给它一个定义模糊的任务,它也能以相当自主的方式完成——自动发现信息、分析问题,甚至执行测试。这种表现总是让我感到惊艳。 最大的变化体现在两个维度:一是任务本身的智力复杂度,二是模型处理上下文信息和多步骤操作的能力。新模型在后者方面表现尤其出色,它们不仅能完成多步操作,还能自主判断需要从环境中获取什么信息并采取行动。 **主持人**:对于第一次接触这些模型的用户,你有什么建议? **Douglas**:最实用的建议就是直接将它们整合到你的工作流程中。坐下来,让它处理你当天在代码库中要完成的第一个任务。观察它如何分析需求、解决问题,你肯定会感到惊艳。 ## "产品跃迁":开发者的新策略 **主持人**:基于这些新能力,开发者们会创造出什么突破性应用? **Douglas**:我称之为"产品跃迁"概念。开发者需要持续构建略微领先于当前模型能力的产品。我特别欣赏Cursor、Windsurf和Devon这些产品。Cursor最初的愿景在当时看来非常超前,直到Claude 3.5 Sonnet等底层模型取得突破,其编程辅助功能才成为可能。 现在我们看到Claude Code、全新的Claude GitHub集成、OpenAI的Codex以及Google的编程代理都在朝这个方向发展。行业正在构建更高级的异步自治系统。这些模型已能初步尝试独立完成原本耗时数小时的工作。 **主持人**:未来可能不只是管理单个模型,而是管理整个模型集群? **Douglas**:确实如此。我在Anthropic的许多同事已经在同时运行多个Claude Code实例。但目前还没人完全解决这种模式的技术难题。关键问题是如何量化这些模型的经济效益及其带来的生产力提升。 从按15分钟检查一次到每小时检查一次,再到每5小时检查一次,工作覆盖量会大幅提升。这种检查频率决定了效率的上限。 ## 技术突破:记忆、指令与工具使用 **主持人**:能谈谈你们在模型记忆、指令理解和工具使用方面的突破吗? **Douglas**:过去一年最关键的进步是强化学习技术在语言模型上真正跑通了。这意味着我们教AI完成复杂任务的能力仍在持续提升,目前看不到上限。 记忆功能和工具使用等,本质上是在扩展模型的能力边界。像MCP(Model-Controlled Programming)这类工具接口,帮助模型与外部环境交互。记忆功能则允许模型处理更长上下文,突破基础模型的窗口限制。 我们最近让新模型尝试玩《宝可梦》游戏,这个评估很有意思,因为它展现了智能体的泛化能力——模型未经专门训练,却能处理与以往任务类型显著不同的新任务。 ## AI代理的可靠性挑战 **主持人**:开发者们都在等待智能体技术成熟。可靠性方面我们取得了多少进展? **Douglas**:用时间维度衡量成功率是评估智能体功能拓展的正确方法。我们取得了惊人突破,尽管可靠性尚未完美。模型并非每次都能成功,单次任务与多次尝试的效果差距明显。但从趋势看,方向是正确的。 **主持人**:什么时候能实现真正的通用智能体? **Douglas**:到明年年底,我认为AI的表现会达到几乎不出错的程度。今年年底前就能看出端倪,明年年底,这些AI助手将随处可见,在你的浏览器里帮你处理各种事务。 ## 编程领域的领先优势 **主持人**:你们的模型在编程方面如此出色,有什么秘诀吗? **Douglas**:Anthropic非常重视核心目标。我们认为编程能力至关重要,因为这是AI实现自我迭代的第一步。因此,我们将其作为重点突破方向和衡量模型进步的重要标尺。 AI工具确实显著提升了我的工作效率。顶尖工程师也承认这种助推作用,在熟悉领域效率提升1.5倍,在陌生领域效率提升可达5倍。 **主持人**:这些工具何时能主动提出有意思的研究课题? **Douglas**:目前大部分工作仍是工程实现。提出创新想法,我尚不确定,但两年内应能看到像样的科研提案。只要给AI系统建立起某个领域的学习闭环,它们就能成为该领域的行家。 ## 对经济和社会的深远影响 **主持人**:这些模型的进步将如何影响全球GDP? **Douglas**:初期影响可能类似中国经济崛起带来的效应,但AI带来的变革会快得多。大约在2027、28年,最晚到这个十年末,会出现能处理各类白领工作的AI模型。 我担心会出现失衡——白collar工作将受到巨大冲击。我们需要加快推动能改善生活的重大变革,如加速医疗突破、推动物质丰富,这需要云端实验室、机器人技术等基础设施。 **主持人**:基本上每个白领职业都可以搭建激励模型? **Douglas**:我们训练AI模型时远未达到其性能上限。AI学习效率目前可能稍逊于人类,但我们可以运行大量副本,让它们接触不同任务变体,积累经验。业内多数研究者认为,预训练结合强化学习这套方法足以实现AGI。 ## 能源瓶颈与发展限制 **主持人**:什么时候会碰到算力能耗瓶颈? **Douglas**:《态势感知》报告指出,到2030年前后,AI可能消耗美国能源产量的相当大部分(约20%-28%)。若无重大突破,此消耗量级难以再成倍增长。这是政府应重点投资的领域。 美国能源产量基本持平,而中国能源增长曲线直线上升,他们在能源基建方面更出色。 ## 评估体系的重要性 **主持人**:目前最应重点突破哪些评估方面? **Douglas**:许多公司内部的评估体系令人印象深刻,他们开发了类似SweetBench的评测标准。但制定真正有效的评估标准极为困难。 若能设计出反映人们真实工作节奏的评估体系,将是重大突破。这需要政府介入,统计律师、工程师等职业的工作效率,将其转化为可分级评估的指标。 ## 未来半年到一年的发展计划 **主持人**:新模型发布后,未来半年到一年有什么计划? **Douglas**:重点是全力推进强化学习的规模化应用。相比预训练,投入到强化学习规模化的计算资源还远不够,这意味着即便用现有算力总量,仍有巨大提升空间。 到年底,现在尚不稳定的编程智能体将变得相当可靠。届时可以放心让AI连续处理几小时工作。目前Claude Code检查间隔可能仅五分钟,但年底有望实现AI连续处理数小时任务。 ## AI对齐研究的现状 **主持人**:你怎么看现在AI对齐研究的进展? **Douglas**:可解释性方面的进展突飞猛进。去年此时,模型研究才刚发现特征叠加等基础概念。现在我们已在最前沿模型中找到实在的神经网络通路。 模型在预训练阶段就很好地内化了人类价值观,具备不错的默认对齐性。但强化学习调优后,对齐性不一定保持,模型可能不惜一切代价达成目标。 最重要的是让更多高校重视这个方向,这相当于语言模型领域的"基础科学"。很多有价值的对齐研究来自头部研究机构之外的团队。 ## 被低估与高估的AI应用 **主持人**:AI领域哪些方面被低估了? **Douglas**:被低估的是世界模型这个方向。随着AR和VR技术发展,我们将亲眼看到模型直接在眼前构建虚拟世界的能力。视频生成效果体现了对物理规律的掌握,其泛化程度惊人。 软件工程领域已尝到甜头,但其他行业仍大有可为。目前似乎还没看到特别成熟的跨行业智能后台助手。 ## 研究者的日常工作 **主持人**:作为前沿AI研究员,你的日常工作是怎样的? **Douglas**:主要做两件事:开发新的计算效率提升方法,以及规模放大阶段的工程实现与系统优化。这是一种研发与工程紧密结合的模式,不断实验、搭建测试环境。 每次规模扩大十倍左右,都会出现新现象,需要深挖科学原理。AI目前主要用于工程实现,在研究思路上也有辅助。 ## 对未来的展望 **主持人**:过去一年你改变最大的观点是什么? **Douglas**:这一年来我明显感觉到技术发展突然加速了。现在可以确定,无需再投入成倍算力进行预训练。强化学习已验证有效,到2027年,AI就能完全取代远程工作岗位。 **主持人**:如果让你决策政策,如何让发展更可控? **Douglas**:最重要的是让大家切身感受发展趋势。建议做系统分析,梳理国家关键能力维度,观察AI模型在这些领域的进步速度。关键是加大研究投入,攻克模型运作机制理解、可控性及输出真实性。 ## 结语 Douglas的分享为我们描绘了一个AI快速发展的未来图景。从技术突破到社会变革,从编程助手到通用智能体,AI正在以前所未有的速度改变着我们的世界。正如他所说,无论是期待还是担忧,这些变化都变得特别真切。 在这个关键时刻,我们需要的不仅是技术进步,更需要深思熟虑的准备和负责任的发展。AI的未来不仅属于技术专家,更需要全社会的共同参与和智慧。 *本文根据播客访谈整理,完整音频内容可在小宇宙等平台收听。* ## 来源引用 [Claude 4, Next Phase for AI Coding, and the Path to AI Coworkers](https://www.youtube.com/watch?v=W1aGV4K3A8Y)