学习讲故事的思路 | WhiteDLG's Blog

1. 引言

稀疏性（Sparsity）是智能系统设计中反复出现的一条原则，从生物神经回路（Lennie, 2003; Olshausen and Field, 1997）到现代大型语言模型（LLMs）皆是如此。目前，这一原则主要通过混合专家模型（MoE）（Dai et al., 2024; Shazeer et al., 2017）来实现，它通过条件计算（conditional computation）来扩展模型容量。由于 MoE 能够在不按比例增加计算量的情况下大幅增加模型规模，它已成为前沿模型（Comanici et al., 2025; Guo et al., 2025; Team et al., 2025）的事实标准。

“稀疏性”，早期到现在的沿用以及现状。

尽管这种条件计算范式取得了成功，但语言信号内在的异质性表明，模型结构仍有巨大的优化空间。具体而言，语言建模包含两个本质上不同的子任务：组合推理（compositional reasoning）和知识检索（knowledge retrieval）。前者需要深度的、动态的计算，而文本中的很大一部分内容——如命名实体和公式化模式——则是局部的、静态的且高度固定的（Constant et al., 2017; Erman, 2000）。经典的 $N$-gram 模型（Brants et al., 2007; Liu et al., 2024b; Nguyen, 2024）在捕捉此类局部依赖关系方面的有效性意味着，这些规律很自然地应被表示为计算成本低廉的查找（lookup）操作。由于标准 Transformer（Vaswani et al., 2017）缺乏原生的知识查找图元（primitive），当前的 LLM 被迫通过计算来模拟检索。例如，解析一个常见的多 token 实体需要消耗注意力机制和前馈网络的多个早期层（Ghandeharioun et al., 2024; Jin et al., 2025）（见表 3）。这一过程本质上相当于在运行时昂贵地重建一个静态查找表，在琐碎的操作上浪费了宝贵的序列深度，而这些深度本可以分配给更高级的推理任务。

分析点： 指出潜在的问题（观点-解释）。
接着解释这个观点相关的最重要的概念，针对这个概念中作者关注的点提出某个相关的概念（如这里的N-gram模型）擅于应对此类问题，点出其优势之后，点明这个概念方法中现在出现的具体的问题，与这个用于解决的方法要相关（这回答了为什么要使用这个方法，而不使用别的方法）【接着可以举个例子】，最后总结一句话。【总-分-总】

如何区分别人针对你工作为什么使用此方法而不是使用别的方法的刁钻提问呢？如何区分是切实的潜在更优良的改进而不是临时的解决方法单纯来找茬？

为了使模型架构与这种语言的二元性相一致，我们提倡引入一个互补的稀疏性维度：条件记忆（conditional memory）。条件计算通过稀疏地激活参数来处理动态逻辑（Bengio et al., 2013; Shazeer et al., 2017），而条件记忆则依赖稀疏查找操作来检索固定知识的静态嵌入。作为对这一范式的初步探索，我们重访 $N$-gram 嵌入（Bojanowski et al., 2017）并将其作为一个典型的具体实例：局部上下文作为键（key），通过常数时间 $O(1)$ 的查找来索引一个巨大的嵌入表（Huang et al., 2025a; Pagnoni et al., 2025; Tito Svenstrup et al., 2017; Yu et al., 2025）。我们的研究表明，这种静态检索机制如果设计得当，可以出人意料地成为现代 MoE 架构的理想补充。在本文中，我们提出了 Engram，这是一个基于经典 $N$-gram 结构但配备了现代适配技术的条件记忆模块，这些技术包括分词器压缩、多头哈希、上下文门控和多分支集成（详见第 2 节）。

作为上一个段落的补充，更细致的描述这个解决方法相关的设计逻辑（依然是总-分-总结构），第一句话，点明重点，引入一个新维度“条件记忆”，然后阐述这个概念是什么意思。简单讲清楚后就阐述作者在此基础上做了什么创新的设计。最后两句总结，点名效果很好，并正式点出本文的设计是什么。
（注：第三段是过渡，从之前的工作过渡到作者自己的设计）

2. 稀疏性分配 (Sparsity Allocation)

为了量化这两个图元之间的协同作用，我们构建了稀疏性分配（Sparsity Allocation）问题：在给定的总参数预算下，应如何在 MoE 专家和 Engram 记忆之间分配容量？我们的实验揭示了一条明显的 U 型缩放定律，表明即使是简单的查找机制，当被视为一流的建模图元时，也能成为神经计算的重要补充。在这条分配定律的指导下，我们将 Engram 扩展为一个 270 亿参数的模型。与严格保持同等参数量（iso-parameter）和同等浮点运算量（iso-FLOPs）的 MoE 基线相比，Engram-27B 在不同领域都实现了卓越的效率。至关重要的是，这种收益不仅限于知识密集型任务（例如，MMLU: +3.4; CMMLU: +4.0; MMLU-Pro: +1.8），在这些任务中记忆容量直观上是有益的；我们在通用推理（例如，BBH: +5.0; ARC-Challenge: +3.7; DROP: +3.3）和代码/数学领域（例如，HumanEval: +3.0; MATH: +2.4; GSM8K: +2.2）观察到了更为显著的提升。

讲了设计的方法后，接着介绍要量化这个方法的性能如何，所以这里过渡之后就开始介绍设计的一个细节问题以及性能评估。(分-总）

3. 机理分析

通过 LogitLens（nostalgebraist, 2020）和 CKA（Hendrycks et al., 2021a）进行的机理分析揭示了这些收益的来源：Engram 将骨干网络从早期层的静态知识重建任务中解脱出来，从而增加了可用于复杂推理的有效深度。此外，通过将局部依赖关系委托给查找操作，Engram 释放了注意力机制的容量以专注于全局上下文，从而在长上下文场景中实现了卓越的性能——在 LongPPL（Fang et al.）和 RULER（Hsieh et al.）上大幅超越基线（例如，多查询大海捞针测试 Multi-Query NIAH: 97.0 vs. 84.2; 变量跟踪 Variable Tracking: 89.0 vs. 77.0）。

确定了性能提升的结果后，进一步解释这些提升是因何而来的。 （无总、分结构）

4. 基础设施感知效率

最后，我们将基础设施感知效率（infrastructure-aware efficiency）确立为首要原则。与 MoE 的动态路由不同，Engram 采用确定性 ID 来实现运行时预取，从而将通信与计算重叠实证结果表明，将 1000 亿参数的表卸载到主机内存（Host Memory）仅产生可忽略的开销（< 3%）。这证明了 Engram 有效地绕过了 GPU 显存的限制，促进了激进的参数扩展。

总结方法，与现有方法的不同以及特殊之处，一句话点了微弱的缺陷。
核心：证明此方法有效，有用，有价值。
(分-总)

Tags: Deep Learning, Sparsity, LLM, MoE, Research Methods