Engram 模型

2026-1-23 NLP / Deep Learning Knowledge Retrieval

简洁理解：

普通模型是：输入 -> 用脑子算出知识 -> 构建输出。
Engram 模型是：输入 -> 查表找到知识向量 -> （输入+知识）-> 构建输出。

先提供输入，然后模型分词这个输入，之后根据输入的分词找到相关的关键词向量，最后模型根据输入以及这些关键词向量构建一个逻辑通顺的输出。

举例

假设我们要补全这句话：“著名的物理学家牛顿被一颗____砸中，发现了万有引力。”

场景 A：普通模型（裸考）

1. 输入：“著名的物理学家牛顿被一颗”
2. Layer 1-3（算力用来回忆）：
模型：“‘牛顿’是谁？哦，是个老外。‘被一颗’说明后面是个名词。”（还在理解词义）
3. Layer 4-8（算力用来联想）：
模型：“牛顿...物理...万有引力...哦对，那个故事里有个水果。”（还在检索大脑深处的记忆权重）
注意：此时模型还没决定填“苹果”，它还在“寻找”这个概念。
4. Layer 9-12（终于开始推理）：
模型：“结合上下文发现万有引力”，这个水果必须是苹果，不能是西瓜，否则头就烂了。”
5. 输出：“苹果”

场景 B：Engram 模型（带小抄）

1. 输入：“著名的物理学家牛顿被一颗”
2. Engram 模块介入（瞬间查表）：
- 系统检测到 N-gram 序列：“物理学家牛顿”。
- 查表动作：就像按下快捷键，直接从外部数据库提取出一个向量。这个向量里已经包含了“苹果”、“万有引力”、“三大定律”的浓缩信息。
- 注入：这个向量直接加到了当前的计算流里。
3. Layer 1（直接开始推理）：
模型：“哇，信息量好大！我已经知道这事儿跟‘苹果’有关了。现在的任务不是找水果，而是检查语法的通顺性。”
4. Layer 2-12（深层推理）：
模型有多余的精力去思考更深的问题：“这句话隐含了什么因果关系？后面该怎么写？”
5. 输出：“苹果”（而且它可能比普通模型更早确定答案）。

评论功能暂未开启