欢迎来到 GPT 大型语言模型的演练!在这里,我们将探索只有 85,000 个参数的模型 nano-gpt。
它的目标很简单:取六个字母的序列:
C B A B B C
并按字母顺序对它们进行排序,即“ABBBCC”。
我们将这些字母中的每一个称为标记,模型的不同标记集构成了它的词汇表:
| 令 牌 | 一个 | B | C |
|---|---|---|---|
| 指数 | 0 | 1 | 2 |
在此表中,为每个令牌分配一个编号,即其令牌索引。现在我们可以将这个数字序列输入到模型中:
2 1 0 1 1 2
在 3D 视图中,每个绿色单元格表示一个正在处理的数字,每个蓝色单元格都是一个权重。
-0.7
0.4
0.8
正在处理中
-0.7
0.7
-0.1
权重
序列中的每个数字首先被转换为一个 48 元素向量(为此特定模型选择的大小)。这称为嵌入。
然后,嵌入穿过模型,经过一系列层,称为变压器,然后到达底部。
那么输出是什么呢?对序列中下一个标记的预测。因此,在第 6 个条目中,我们得到下一个代币的概率是 将是“A”、“B”或“C”。
在这种情况下,模型非常确定它将是“A”。现在,我们可以将这个预测反馈到模型的顶部,然后重复 整个过程。