预训练没有结束,只是问题定义更难
访谈把“预训练到头”拆成两层:技术范式本身是否到头,以及人类是否知道下一个该教模型什么。当前更像后者,瓶颈是定义、数据与实验排错。
这不是逐字稿替代品,而是面向 AI Infra 学习者的结构化摘要:哪些判断能转化为研发、平台、评测、组织和产品上的行动。
访谈把“预训练到头”拆成两层:技术范式本身是否到头,以及人类是否知道下一个该教模型什么。当前更像后者,瓶颈是定义、数据与实验排错。
代码任务天然拥有高质量数据、明确反馈和可自动验证环境,因此适合推动工具使用、Agentic workflow 和研究效率飞轮。
不同公司会选择不同算法和数据路径,但大方向相似:找到客观反馈足够强的任务,让强化学习或后训练过程稳定地产生能力迁移。
他反复强调大模型不再是单个英雄的故事。训练前沿模型需要清晰责任、工程基础设施、评测框架、组织下注能力,以及能在混乱信号里快速收敛的技术领导。
Gemini 的追赶被描述为技术储备、组织清晰度和产品分发共同起效。对大公司来说,把确定性范式做成工程项目,本身就是优势。
长程任务不是简单把上下文窗口拉长,而是让模型在有限上下文里完成跨阶段目标管理、选择性记忆、检索和行动闭环。
访谈里最反直觉的管理信号是:AI 研发最重要的特质不是表演型聪明,而是细致、负责、能用 AI 但不把理解外包给 AI。
如果只想抓主线,可以按下面的主题段落跳听;如果要做技术复盘,建议重点听 Coding、Claude、Gemini、预训练与组织几段。
澄清姚顺雨与姚顺宇的身份差异,进入嘉宾背景。
讨论 scaling、实验假设、bug 排查和平台期判断。
为什么 coding 是模型能力、工具使用和产品增长的交叉点。
围绕数据、方法、基础设施和效率做技术取舍。
从纯语言模型往物理世界任务迁移的机会与难点。
非厄米系统、量子物理和高能物理如何塑造他的思维方式。
Anthropic 的 coding bet、后训练转折和 underdog 叙事。
Google 的工程优势、组织清晰度和 Gemini 回归。
重新理解预训练、后训练和奖励之间的边界。
长程任务、多模态、机器人和基础科学方向。
大公司、创业公司、top-down 与 bottom-up 的不同打法。
对个人英雄叙事保持警惕,回到团队和系统能力。
从这期访谈抽出来的不是“八卦”,而是一组工程问题:什么环境可训练,什么反馈可信,什么组织能持续把信号变成能力。
本页只做结构化摘要与学习导读,完整观点、语气和细节请回到原播客或文字版。