简洁理解:
- 普通模型是:输入 -> 用脑子算出知识 -> 构建输出。
- Engram 模型是:输入 -> 查表找到知识向量 -> (输入+知识)-> 构建输出。
先提供输入,然后模型分词这个输入,之后根据输入的分词找到相关的关键词向量,最后模型根据输入以及这些关键词向量构建一个逻辑通顺的输出。
举例
假设我们要补全这句话:“著名的物理学家牛顿被一颗____砸中,发现了万有引力。”
场景 A:普通模型(裸考)
- 1. 输入:“著名的物理学家牛顿被一颗”
- 2. Layer 1-3(算力用来回忆):
模型:“‘牛顿’是谁?哦,是个老外。‘被一颗’说明后面是个名词。”(还在理解词义) - 3. Layer 4-8(算力用来联想):
模型:“牛顿...物理...万有引力...哦对,那个故事里有个水果。”(还在检索大脑深处的记忆权重)
注意:此时模型还没决定填“苹果”,它还在“寻找”这个概念。 - 4. Layer 9-12(终于开始推理):
模型:“结合上下文发现万有引力”,这个水果必须是苹果,不能是西瓜,否则头就烂了。” - 5. 输出:“苹果”
场景 B:Engram 模型(带小抄)
- 1. 输入:“著名的物理学家牛顿被一颗”
- 2. Engram 模块介入(瞬间查表):
- 系统检测到 N-gram 序列:“物理学家牛顿”。
- 查表动作:就像按下快捷键,直接从外部数据库提取出一个向量。这个向量里已经包含了“苹果”、“万有引力”、“三大定律”的浓缩信息。
- 注入:这个向量直接加到了当前的计算流里。
- 3. Layer 1(直接开始推理):
模型:“哇,信息量好大!我已经知道这事儿跟‘苹果’有关了。现在的任务不是找水果,而是检查语法的通顺性。” - 4. Layer 2-12(深层推理):
模型有多余的精力去思考更深的问题:“这句话隐含了什么因果关系?后面该怎么写?” - 5. 输出:“苹果”(而且它可能比普通模型更早确定答案)。