Understanding large language models 理解大型语言模型 | Article

Transformer 架构#

原始 Transformer 架构的简化描述，这是一种用于语言翻译的深度学习模型。Transformer 由两部分组成：

编码器：用于处理输入文本并生成文本的嵌入表示（一种在不同维度中捕获许多不同因素的数值表示），
解码器：可以使用该表示一次生成一个翻译单词。此图显示了翻译过程的最后阶段，其中解码器必须仅生成最后一个单词（“Beispiel”），给定原始输入文本（“This is an example”）和部分翻译的句子（“Das ist ein”），以完成翻译。

NeatReader-1744810572856

变种#

BERT 及其变体专门从事掩码词预测，即模型预测给定句子中的掩码或隐藏词，如图 1.5 所示。这种独特的训练策略使 BERT 在文本分类任务中具备优势，包括情感预测和文档分类。作为其能力的一个应用，截至本文撰写时，X（以前的 Twitter）使用 BERT 来检测有毒内容。
GPT 专注于原始 Transformer 架构的解码器部分，并且被设计用于需要生成文本的任务。这包括机器翻译、文本摘要、小说写作、编写计算机代码等。

NeatReader-1744810578051

构建一个 LLM#

构建大模型架构
预训练基础模型
微调