WhiteDLG's

Engram 模型

2026-1-23 NLP / Deep Learning Knowledge Retrieval

简洁理解:

  • 普通模型是:输入 -> 用脑子算出知识 -> 构建输出。
  • Engram 模型是:输入 -> 查表找到知识向量 -> (输入+知识)-> 构建输出。

先提供输入,然后模型分词这个输入,之后根据输入的分词找到相关的关键词向量,最后模型根据输入以及这些关键词向量构建一个逻辑通顺的输出。


举例

假设我们要补全这句话:“著名的物理学家牛顿被一颗____砸中,发现了万有引力。”

场景 A:普通模型(裸考)

  • 1. 输入:“著名的物理学家牛顿被一颗”
  • 2. Layer 1-3(算力用来回忆)
    模型:“‘牛顿’是谁?哦,是个老外。‘被一颗’说明后面是个名词。”(还在理解词义)
  • 3. Layer 4-8(算力用来联想)
    模型:“牛顿...物理...万有引力...哦对,那个故事里有个水果。”(还在检索大脑深处的记忆权重)
    注意:此时模型还没决定填“苹果”,它还在“寻找”这个概念。
  • 4. Layer 9-12(终于开始推理)
    模型:“结合上下文发现万有引力”,这个水果必须是苹果,不能是西瓜,否则头就烂了。”
  • 5. 输出:“苹果”

场景 B:Engram 模型(带小抄)

  • 1. 输入:“著名的物理学家牛顿被一颗”
  • 2. Engram 模块介入(瞬间查表)
    • 系统检测到 N-gram 序列:“物理学家牛顿”。
    • 查表动作:就像按下快捷键,直接从外部数据库提取出一个向量。这个向量里已经包含了“苹果”、“万有引力”、“三大定律”的浓缩信息。
    • 注入:这个向量直接加到了当前的计算流里。
  • 3. Layer 1(直接开始推理)
    模型:“哇,信息量好大!我已经知道这事儿跟‘苹果’有关了。现在的任务不是找水果,而是检查语法的通顺性。”
  • 4. Layer 2-12(深层推理)
    模型有多余的精力去思考更深的问题:“这句话隐含了什么因果关系?后面该怎么写?”
  • 5. 输出:“苹果”(而且它可能比普通模型更早确定答案)。
评论功能暂未开启