就在2026年6月,前OpenAI副总裁、北大校友Lilian Weng发布了她拖更三年的万字长文《Scaling Laws, Carefully》,瞬间在AI圈刷屏。这篇文章深入剖析了统治AI行业五年的“扩展定律”,揭示了其背后隐藏的脆弱性与诸多未解之谜。作为AI领域的核心指导原则,Scaling Laws让模型训练从“炼金术”变为可预测的工程,但其内部的争议与Bug远比外界想象的复杂。
文章核心探讨了OpenAI与DeepMind两大巨头关于算力分配的激烈分歧。2020年OpenAI的Kaplan团队主张“模型增长快于数据”,而2022年DeepMind的Chinchilla团队则得出“模型与数据应等比增长”的相反结论。Weng在文中指出,这一分歧的根源竟源于一个简单的“簿记问题”——两者统计参数时是否包含Embedding层,加之早期实验规模过小导致的局部偏差,致使全行业在两年内遵循了并非最优的训练配方。
更令人震惊的是,Weng揭露了被誉为“赢家”的Chinchilla定律自身也存在Methodology上的Bug。2024年有研究者复现其代码时发现,Chinchilla在拟合参数时因损失函数取了均值而非求和,导致优化器提前停止,并未跑出真正的最优解。此外,关键参数仅保留两位小数的四舍五入,在反推过程中被指数级放大,造成了极窄的置信区间假象。这些细节暴露了即便顶级研究也难逃工程实现瑕疵的困扰。
面对高质量数据即将枯竭的“数据墙”危机,Weng详细梳理了2023至2026年间学术界对数据受限场景的补丁式研究。从引入“有效数据量”的指数衰减模型,到显式添加与模型大小挂钩的过拟合惩罚项,这些新公式表明:大模型对数据重复极为敏感,且多余的参数比重复数据贬值更快。这解释了为何行业正集体转向强化学习、测试时计算和合成数据,试图绕过单纯依赖规模扩展的旧路。
Lilian Weng本人也是一位传奇人物。北大本科毕业后,她转行进入AI领域,其个人博客“Lil'Log”因深入浅出的长文分析成为业内经典。她在OpenAI期间参与了Dactyl机械手、GPT-4安全系统等核心项目。2025年,她与前OpenAI多位高管共同创立了估值120亿美元的Thinking Machines Lab。这篇长文不仅是对过去的总结,更是她开启新篇章前对行业的深刻警示。
本篇内容整理自网络,同步发布在 AEX新讯社中文网、希鸥网、斯贝瑞品牌资讯、RCEO创新网、AI联播网、创新日报 等媒体平台。如需删改或发布内容,请联系微信:meisceo29