LLM 的完整处理流程,从下往上看:
1️⃣ Tokenization(分词)
- 输入:
a,for,loop,for - 使用固定的词汇表将文本分割成 tokens
2️⃣ Embedding Layer(嵌入层)
- 将每个 token 转换为固定维度的数值向量
- 通常是 1,000 - 3,000 维
3️⃣ Transformer Layers(Transformer 层)
- 通常有 12-96+ 层
- 使用自注意力机制 (Self-Attention Mechanism)
- 基于 Vaswani et al. 2017 的论文 "Attention is All You Need"
4️⃣ 概率分布输出
- 最终输出是所有可能 token 的概率分布
- 例如:
the: 0.3,idx: 0.6,cat: 0.1 - 模型选择概率最高的 token(或按概率采样)
在大语言模型(LLM)中,数字向量用来表示词语的含义。这个过程叫做 Embedding(嵌入)。
为什么用数字来表示词语?
计算机无法直接理解"苹果"这个词的含义,但它可以处理数字。所以我们需要一种方式把词语转换成数字,让计算机能够:
- 计算词语之间的相似度
- 理解词语的语义关系
- 进行数学运算
可以把每个词想象成 3000 维空间中的一个"点"。意思相近的词(如 king 和 queen)在这个空间中距离很近,意思不同的词(如 apple 和 democracy)距离很远。
这就是为什么 AI 能理解语言——它把文字变成了可以计算的数字,在一个巨大的数字空间中进行数学计算
LLM 能把每个词映射到高维的向量空间,通过海量参数捕捉语言中的统计规律。而人脑虽然有极其复杂的神经网络,却不擅长显式地处理高维数值运算。
两者是不同类型的智能:
- LLM 擅长:模式匹配、信息压缩、跨领域知识关联
- 人脑擅长:因果推理、常识判断、身体感知、情感体验
人类觉得世界复杂,不是因为"维度太少",而是我们的认知系统是为生存和社交演化的,不是为理解宇宙全貌设计的。