AI Infra 学习笔记 · 2026-05-13

姚顺宇 4 小时长访的工程信号

基于张小珺《商业访谈录》第 140 集整理:从物理到模型训练,从 Anthropic 的 coding bet 到 Gemini 的追赶,把一场长对话压缩成适合复盘的 AI Infra 观察图。

嘉宾:姚顺宇 主持:张小珺 时长:231 分钟 主题:模型训练 / Coding / 组织
Core Takeaways

七个值得反复咀嚼的判断

这不是逐字稿替代品,而是面向 AI Infra 学习者的结构化摘要:哪些判断能转化为研发、平台、评测、组织和产品上的行动。

01

预训练没有结束,只是问题定义更难

访谈把“预训练到头”拆成两层:技术范式本身是否到头,以及人类是否知道下一个该教模型什么。当前更像后者,瓶颈是定义、数据与实验排错。

02

Coding 是最清晰的工具使用训练场

代码任务天然拥有高质量数据、明确反馈和可自动验证环境,因此适合推动工具使用、Agentic workflow 和研究效率飞轮。

03

后训练的核心是稳定、干净、可学习的环境

不同公司会选择不同算法和数据路径,但大方向相似:找到客观反馈足够强的任务,让强化学习或后训练过程稳定地产生能力迁移。

04

模型竞争从个人神话转向集体工程

他反复强调大模型不再是单个英雄的故事。训练前沿模型需要清晰责任、工程基础设施、评测框架、组织下注能力,以及能在混乱信号里快速收敛的技术领导。

05

Google 的回归更像工程体系复位

Gemini 的追赶被描述为技术储备、组织清晰度和产品分发共同起效。对大公司来说,把确定性范式做成工程项目,本身就是优势。

06

下一个关键 bet 是 long horizon

长程任务不是简单把上下文窗口拉长,而是让模型在有限上下文里完成跨阶段目标管理、选择性记忆、检索和行动闭环。

07

“靠谱”比炫技更接近稀缺能力

访谈里最反直觉的管理信号是:AI 研发最重要的特质不是表演型聪明,而是细致、负责、能用 AI 但不把理解外包给 AI。

Listening Map

231 分钟可以这样听

如果只想抓主线,可以按下面的主题段落跳听;如果要做技术复盘,建议重点听 Coding、Claude、Gemini、预训练与组织几段。

00:02:41

两个 Shunyu Yao

澄清姚顺雨与姚顺宇的身份差异,进入嘉宾背景。

00:26:37

Pre-train 没有到头

讨论 scaling、实验假设、bug 排查和平台期判断。

00:36:23

Coding 的爆发

为什么 coding 是模型能力、工具使用和产品增长的交叉点。

00:54:45

蒸馏与工程 trade-off

围绕数据、方法、基础设施和效率做技术取舍。

01:05:22

机器人

从纯语言模型往物理世界任务迁移的机会与难点。

01:20:59

物理训练

非厄米系统、量子物理和高能物理如何塑造他的思维方式。

01:53:47

训练 Claude

Anthropic 的 coding bet、后训练转折和 underdog 叙事。

02:42:25

训练 Gemini

Google 的工程优势、组织清晰度和 Gemini 回归。

03:02:43

Pre-train 也是 RL

重新理解预训练、后训练和奖励之间的边界。

03:08:04

技术预测

长程任务、多模态、机器人和基础科学方向。

03:14:06

组织搭建

大公司、创业公司、top-down 与 bottom-up 的不同打法。

03:24:48

集体主义胜利

对个人英雄叙事保持警惕,回到团队和系统能力。

AI Infra Lens

转译成 Infra 学习清单

从这期访谈抽出来的不是“八卦”,而是一组工程问题:什么环境可训练,什么反馈可信,什么组织能持续把信号变成能力。

数据与环境
优先学习如何构造可验证任务、自动反馈、干净数据源和稳定采样链路。Coding 重要,是因为它把这些条件同时凑齐。
训练与评测
把 ablation、eval、错误归因和线上反馈视为同一套系统,而不是训练后的补丁。前沿模型训练更像持续排错工程。
Agent 与工具
关注模型如何调用工具、维护上下文、拆分任务、恢复失败。长程能力最终会落在任务状态管理和可靠执行上。
产品与分发
模型优势需要被产品形态放大。Cursor、Claude Code、Gemini App 都说明能力、场景、分发必须同时成立。
组织机制
复杂模型工程需要明确 owner、统一目标、快速下注和足够包容的技术判断。文化没有唯一答案,但责任边界必须清楚。
How To Use

适合三种读法

给技术同学

  • 把 coding 看成可验证环境,而不只是应用场景。
  • 复盘自己项目里 reward signal 是否足够客观。
  • 检查 eval 是否能覆盖 long horizon 失败模式。
  • 用“能不能解释 AI 写的东西”衡量协作质量。

给组织和产品同学

  • 别只追逐模型榜单,观察场景是否能放大能力。
  • 产品壳必须拥有速度、分发或闭环数据优势。
  • 前沿模型项目需要明确 owner 和里程碑。
  • 警惕个人英雄叙事,追问系统如何持续产出。
Sources

资料来源

本页只做结构化摘要与学习导读,完整观点、语气和细节请回到原播客或文字版。