暴力堆砌的终结 - 字节Seed用香农定理重新划定大模型 Scaling Law

Coggle 阿水·2026年5月26日

长期以来，大模型行业流行着一句话：“Scaling is all you need”（规模就是一切）。无论是万亿参数的巨兽，还是动辄数万亿 Token 的海量预训练语料，整个 AI 界的繁荣都建立在 OpenAI 和 Chinchilla 的单调幂律（Power Laws）之上——只要算力、数据、模型加倍，性能就一定会单调提升。

然而，我们正在撞上一堵无形的物理墙。你是否发现：当模型训练时间过长，下游微调（SFT）的性能反而开始诡异地“灾难性恶化”？当费尽心机训练出的大模型在进行低比特量化（Quantization）时，其抗噪能力竟然还不如一个小模型？这种性能不升反降的 “U型退化” 现象，让传统的单调缩放定律彻底失效。

https://arxiv.org/pdf/2605.23901

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

2026年5月，来自 ByteDance Seed、弗吉尼亚大学和加州大学伯克利分校的研究团队发表了一篇颠覆性的论文。他们做出了一个极其大胆的跨界尝试：将大语言模型（LLM）彻底重构为通信系统中的“有噪信道”，并借用信息论的基石——香农-哈特利定理（Shannon-Hartley Theorem），推导出了全新的“香农缩放定律”（Shannon Scaling Law）。这一理论不仅完美解释了单调提升与U型退化的内在矛盾，更用物理学的确定性，为大模型的盲目扩张划定了终极的“香农极限”。

大模型扩展定律

原始的扩展定律，本质上是关于大模型性能的“暴力美学经验公式”。它定量地描述了大语言模型（LLM）的性能（通常用交叉熵损失 Loss 或困惑度 Perplexity 来衡量）如何随着模型参数量（ $N$ ）、训练数据量（ $D$ ，即 Token 数）以及总计算量（ $C$ ）的扩大而变化。

在传统认知中，这些定律都基于一个核心假设：性能与规模之间存在着严格的“单调幂律（Power-law）”关系。 也就是说，只要资源加倍，模型的 Loss 就会按比例单调下降，不存在性能反噬的拐点。

行业内最著名的两大原始扩展定律分别来自 OpenAI 和 DeepMind（Chinchilla）：

1. OpenAI 扩展定律 (2020年)

由 Kaplan 等人（OpenAI 团队）在 2020 年提出，这也是掀起全球“大模型军备竞赛”的理论基石。

核心公式形式（乘法/幂律叠加）：

L(N, D) = \left[ \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} \right]

OpenAI 当时得出的结论是：模型结构（如层数、多头注意力机制的形状等）对最终性能的影响微乎其微，真正决定性能的只有参数量 $N$ 、数据量 $D$ 和总算力 $C$ 。 更重要的是，OpenAI 认为参数量（ $N$ ）的缩放红利远大于数据量（ $D$ ）。也就是说，如果你手头有固定的算力预算，你更应该倾向于把模型做大（增大 $N$ ），哪怕数据没那么多、模型没训练透彻（即“大模型、弱训练”）。

2. Chinchilla / DeepMind 扩展定律 (2022年)

2022年，DeepMind 的 Hoffmann 等人发表论文，指出了 OpenAI 2020 定律在算力分配上的严重偏置，并提出了著名的 Chinchilla 定律。

L(N, D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E

DeepMind 重新进行了更严密的实验，推翻了 OpenAI“模型大过数据”的观点。他们发现，在最优算力分配下，模型参数量（ $N$ ）和训练数据量（ $D$ ）应该以等比例（1:1）同步放大。 比如，模型参数量扩大 10 倍，训练 Token 也应该扩大 10 倍。这导致了行业向“小参数、重训练（超额训练）”的范式转型（如 LLaMA、Mistral 等用数万亿 Token 喂饱几 B 到十几 B 小模型的做法，均受益于 Chinchilla 定律）。

无论是 OpenAI 定律还是 Chinchilla 定律，它们在提出时都处于“高信噪比”的理想实验环境下，即：

训练数据极其干净（或未达到累积噪声的极限）；
模型运行在 full-precision（16位/32位浮点数）的高精度状态下；
针对的是纯粹的预训练（Pre-training）阶段。

大模型其实是一个“有噪信道”

为了破除“暴力美学”的迷思，论文首先将大模型的训练与推理过程，与经典的香农-韦弗（Shannon-Weaver）通信模型进行了跨界映射：

输入上下文 $X$ $rightarrow$ 信息源（Information Source）
Tokenizer 与 Embedding（输入编码） $\rightarrow$ 发送器（Transmitter）
LLM 神经网络层（带有权重噪声） $\rightarrow$ 有噪信道（Channel + Noise）
输出层 Decoder 接收器（Receiver）

在物理世界中，任何信道都存在固有的杂音和容量上限。以此类比，预训练本质上是“信道调制”（将知识压缩进权重），而推理则是“信息传输”。既然是传输，就必然受到数据噪声和架构局限的干扰。盲目扩大规模而不注重信噪比，就如同在充满强杂音的对讲机里大喊大叫，传输的有效信息（模型容量）反而会发生塌陷。

香农缩放定律的公式解密

基于上述视角，研究团队将大模型的测试损失（Test Loss $L$ ）定义为模型表达容量（Capacity $C\_{LLM}$ ）的倒数（即 $L = \\frac{1}{C\_{LLM}}$ ），并推导出了核心公式：

C_{LLM} = aN^\alpha \log_2 \left( 1 + \frac{bD^\beta}{c(DN)^\gamma + dD^\delta + e} \right)

这个公式完美对应了香农定理的三个经典通信要素：

信道带宽（Bandwidth $\propto N^\alpha$ ）： 对应**模型参数量（ $N$ ）**。模型越大，信道频带越宽，能够捕捉的特征谱系和知识空间就越广。
信号功率（Signal $\propto D^\beta$ ）： 对应**训练 Token 数（）**。语料中的有效知识就是传输的“信号”。

统一视角的精妙之处： 传统的 OpenAI 和 Chinchilla 定律错了吗？并没有。它们只是香农定律在高信噪比（High-SNR）下的一个特例（即干扰项极小、分母接近常数时的表现）。而香农缩放定律是一个更普适的泛化公式，同时统治了单调与非单调的两种世界。

U型“Loss 盆地”的全面显现

为了验证该定律的优异性，研究团队在 Pythia 和 OLMo2 模型系列上施加了三种不同的物理扰动，成功逼出了传统模型无法解释的 **U型损失盆地（Loss Basins）**：

1. 高斯噪声注入：等高线的崩塌

研究人员根据不同的信噪比（40 dB 至 10 dB）向模型权重注入高斯噪声。实验发现：在 40 dB（高信噪比）时，Loss 等高线是开放的，增大模型或增加数据都能降低 Loss。但随着噪声加剧（降至 20 dB-10 dB），U型曲线轰然出现——在 Token 固定时，模型开得太大反而放大了模型固有噪声，导致 Loss 不降反升。香农定律在全谱系下取得了平均 $R^2 \\ge 0.95$ 的完美拟合，而 OpenAI 公式在强噪声下直接崩溃。

2. 监督微调（SFT）中的“灾难性过度训练”

在 GSM8K（数学）、SiQA（问答）和 StarCoder（代码）的微调实验中，微调学习率（LR）成为了扰动强度的代名词。在高学习率下，由于数据和模型的破坏性干扰，系统引发容量塌陷，中间出现了巨大的“损失盆地”。在此场景下，传统单调公式彻底失效（OpenAI 公式甚至得出了 -1.010 的负分拟合度），而香农定律在三大任务上均保持了 0.91~0.93 的超高预测精度。

3. 极低比特量化的极限抗噪

在使用 GPTQ 将模型压缩至 4-bit、3-bit、2-bit 的实验中，面对极端的 2-bit量化，Chinchilla 定律的预测性暴跌至 0.61，而香农定律依然稳稳交出了 0.96 (Pythia) 的鲁棒答卷，展示了极强的通用性。

跨越已知的预言：联合外推的胜利

一个缩放定律最大的价值，不在于“解释过去”，而在于“预言未来”。

为了验证外推能力，研究团队设计了行业内极其严苛的联合外推（Joint Extrapolation）测试：他们仅仅让模型在 $\le 6.9 \text{B}$ 的较小 Pythia 模型、且训练 Token $\le 180 \text{B}$ 的截断数据上进行拟合，去预测一个完全从未见过的12 B 模型在高达 307 B Token 时的表现（模型和数据跨度均达到训练集的 1.7 倍）。

结果令人震撼：在这种双轴未知的严苛预测下，OpenAI（-0.082）和 Chinchilla（0.305）的预测曲线完全崩溃，而 9 参数的完整版香农缩放定律取得了 $R^2 = 0.847$ 惊人准确度。这确凿地证明，香农公式中的联合项并非统计学上的“过拟合”，而是深刻抓住了物理世界中 $N$ 和 $D$ 互动的宏观规律。

大模型的扩张会反噬？

通过对拟合出的数学指数进行解构，论文揭示了两个足以改写行业未来走向的底层逻辑：

对于模型规模（ $N$ 轴）： 存在一个明显的“平衡反转”。在高信噪比（预训练）时，带宽指数 $\alpha$ 大于模型噪声指数 $\gamma$ ，扩模型能带来确定性收益；但在低信噪比（如强扰动微调）时，** $\gamma > \\alpha$ 成了常态**。这意味着噪声增长速度超过了有效带宽，盲目把模型做大，只会加速噪声的放大，引发性能反噬。
对于数据规模（ $D$ 轴）： 更加残酷的是，在所有场景中，。只要 Token 数量无限制地增加，累积的数据噪声终究会压垮信号增益。

香农缩放定律的诞生，为 AI 行业狂热的规模崇拜浇上了一盆冷水。它用严密的数学模型向我们证明：大模型的红利是有物理极限的。

“暴力美学”的堆砌参数和无节制地吞噬低质量数据，正在触碰有噪信道的容量惩罚边缘。未来的大模型长跑，胜负手将不再取决于谁的集群规模更大、谁清洗的数据更多，而取决于谁能彻底践行香农定理的奥义——战略性地放弃暴力扩张，将核心精力转向提升数据的“信息密度”，并全面追求模型系统“信噪比（SNR）”的最大化。

LLM Harness Engineer

ICLR 2026 | AutoHarness：使用高代码为 LLM Agent 增加强反馈

在特定任务上，一个“懂规则的小模型 + 代码安全带”可以战胜一个“懂很多但经常犯规的大模型”。

Coggle 阿水·2026年5月25日