Transformer 架构#

原始 Transformer 架构的简化描述,这是一种用于语言翻译的深度学习模型。Transformer 由两部分组成:

  • 编码器:用于处理输入文本并生成文本的嵌入表示(一种在不同维度中捕获许多不同因素的数值表示),
  • 解码器:可以使用该表示一次生成一个翻译单词。此图显示了翻译过程的最后阶段,其中解码器必须仅生成最后一个单词(“Beispiel”),给定原始输入文本(“This is an example”)和部分翻译的句子(“Das ist ein”),以完成翻译。

NeatReader-1744810572856

变种#

  • BERT 及其变体专门从事掩码词预测,即模型预测给定句子中的掩码或隐藏词,如图 1.5 所示。这种独特的训练策略使 BERT 在文本分类任务中具备优势,包括情感预测和文档分类。作为其能力的一个应用,截至本文撰写时,X(以前的 Twitter)使用 BERT 来检测有毒内容。
  • GPT 专注于原始 Transformer 架构的解码器部分,并且被设计用于需要生成文本的任务。这包括机器翻译、文本摘要、小说写作、编写计算机代码等。

NeatReader-1744810578051

构建一个 LLM#

  1. 构建大模型架构
  2. 预训练基础模型
  3. 微调
comments powered by Disqus