LLM架构

2026年1月10日 06:10:35

LLM 的完整处理流程，从下往上看：

在大语言模型（LLM）中，数字向量用来表示词语的含义。这个过程叫做 Embedding（嵌入）。

计算机无法直接理解"苹果"这个词的含义，但它可以处理数字。所以我们需要一种方式把词语转换成数字，让计算机能够：

可以把每个词想象成 3000 维空间中的一个"点"。意思相近的词（如 king 和 queen）在这个空间中距离很近，意思不同的词（如 apple 和 democracy）距离很远。

这就是为什么 AI 能理解语言——它把文字变成了可以计算的数字，在一个巨大的数字空间中进行数学计算

LLM 能把每个词映射到高维的向量空间，通过海量参数捕捉语言中的统计规律。而人脑虽然有极其复杂的神经网络，却不擅长显式地处理高维数值运算。

两者是不同类型的智能：

人类觉得世界复杂，不是因为"维度太少"，而是我们的认知系统是为生存和社交演化的，不是为理解宇宙全貌设计的。