拖更三年，北大校友翁荔最新长文刷屏

作者：希鸥网

发布时间：2026年06月26日 10:00

阅读：1226次

就在2026年6月，前OpenAI副总裁、北大校友Lilian Weng发布了她拖更三年的万字长文《Scaling Laws, Carefully》，瞬间在AI圈刷屏。这篇文章深入剖析了统治AI行业五年的“扩展定律”，揭示了其背后隐藏的脆弱性与诸多未解之谜。作为AI领域的核心指导原则，Scaling Laws让模型训练从“炼金术”变为可预测的工程，但其内部的争议与Bug远比外界想象的复杂。

文章核心探讨了OpenAI与DeepMind两大巨头关于算力分配的激烈分歧。2020年OpenAI的Kaplan团队主张“模型增长快于数据”，而2022年DeepMind的Chinchilla团队则得出“模型与数据应等比增长”的相反结论。Weng在文中指出，这一分歧的根源竟源于一个简单的“簿记问题”——两者统计参数时是否包含Embedding层，加之早期实验规模过小导致的局部偏差，致使全行业在两年内遵循了并非最优的训练配方。

更令人震惊的是，Weng揭露了被誉为“赢家”的Chinchilla定律自身也存在Methodology上的Bug。2024年有研究者复现其代码时发现，Chinchilla在拟合参数时因损失函数取了均值而非求和，导致优化器提前停止，并未跑出真正的最优解。此外，关键参数仅保留两位小数的四舍五入，在反推过程中被指数级放大，造成了极窄的置信区间假象。这些细节暴露了即便顶级研究也难逃工程实现瑕疵的困扰。

面对高质量数据即将枯竭的“数据墙”危机，Weng详细梳理了2023至2026年间学术界对数据受限场景的补丁式研究。从引入“有效数据量”的指数衰减模型，到显式添加与模型大小挂钩的过拟合惩罚项，这些新公式表明：大模型对数据重复极为敏感，且多余的参数比重复数据贬值更快。这解释了为何行业正集体转向强化学习、测试时计算和合成数据，试图绕过单纯依赖规模扩展的旧路。

Lilian Weng本人也是一位传奇人物。北大本科毕业后，她转行进入AI领域，其个人博客“Lil'Log”因深入浅出的长文分析成为业内经典。她在OpenAI期间参与了Dactyl机械手、GPT-4安全系统等核心项目。2025年，她与前OpenAI多位高管共同创立了估值120亿美元的Thinking Machines Lab。这篇长文不仅是对过去的总结，更是她开启新篇章前对行业的深刻警示。

本篇内容整理自网络，同步发布在 AEX新讯社中文网、希鸥网、斯贝瑞品牌资讯、RCEO创新网、AI联播网、创新日报等媒体平台。如需删改或发布内容，请联系微信：meisceo29

阅读量：1226

阅读时间：3分钟

拖更三年，北大校友翁荔最新长文刷屏

推荐阅读

微信扫一扫分享