Transformer 架构#
原始 Transformer 架构的简化描述,这是一种用于语言翻译的深度学习模型。Transformer 由两部分组成:
- 编码器:用于处理输入文本并生成文本的嵌入表示(一种在不同维度中捕获许多不同因素的数值表示),
- 解码器:可以使用该表示一次生成一个翻译单词。此图显示了翻译过程的最后阶段,其中解码器必须仅生成最后一个单词(“Beispiel”),给定原始输入文本(“This is an example”)和部分翻译的句子(“Das ist ein”),以完成翻译。

变种#
- BERT 及其变体专门从事掩码词预测,即模型预测给定句子中的掩码或隐藏词,如图 1.5 所示。这种独特的训练策略使 BERT 在文本分类任务中具备优势,包括情感预测和文档分类。作为其能力的一个应用,截至本文撰写时,X(以前的 Twitter)使用 BERT 来检测有毒内容。
- GPT 专注于原始 Transformer 架构的解码器部分,并且被设计用于需要生成文本的任务。这包括机器翻译、文本摘要、小说写作、编写计算机代码等。

构建一个 LLM#
- 构建大模型架构
- 预训练基础模型
- 微调