The Three LLM Training Steps: Pretraining, Supervised Fine-Tuning, and Preference Tuning#
- Language modeling 语言建模
- Fine-tuning 1 (supervised fine-tuning)微调 1(有监督微调)
- Fine-tuning 2 (preference tuning) 微调 2(偏好调优)
Supervised Fine-Tuning (SFT) 监督微调(SFT)#
Full Fine-Tuning 完全微调#
最常见的微调过程是全微调。像预训练一个LLM一样,这个过程涉及到更新模型的所有参数以符合你的目标任务。主要区别在于,我们现在使用一个较小但有标签的数据集,而预训练过程是在一个没有任何标签的大型数据集上进行的

Parameter-Efficient Fine-Tuning (PEFT) 参数高效微调(PEFT)#
适配器是许多基于 PEFT 的技术的核心组件。该方法在 Transformer 内部提出了一组额外的模块化组件,可以对其进行微调,以提高模型在特定任务上的性能,而无需微调所有模型权重。这节省了大量时间和计算资源

Low-Rank Adaptation (LoRA)#
作为适配器的替代方案,引入了低秩适应(LoRA),在撰写本文时,它是一种广泛使用且有效的 PEFT 技术。LoRA 是一种技术(类似于适配器),只需要更新一小部分参数。
