Fine-Tuning Generation Models

The Three LLM Training Steps: Pretraining, Supervised Fine-Tuning, and Preference Tuning#

最常见的微调过程是全微调。像预训练一个LLM一样，这个过程涉及到更新模型的所有参数以符合你的目标任务。主要区别在于，我们现在使用一个较小但有标签的数据集，而预训练过程是在一个没有任何标签的大型数据集上进行的

NeatReader-1744468027360

适配器是许多基于 PEFT 的技术的核心组件。该方法在 Transformer 内部提出了一组额外的模块化组件，可以对其进行微调，以提高模型在特定任务上的性能，而无需微调所有模型权重。这节省了大量时间和计算资源

NeatReader-1744468099110

作为适配器的替代方案，引入了低秩适应（LoRA），在撰写本文时，它是一种广泛使用且有效的 PEFT 技术。LoRA 是一种技术（类似于适配器），只需要更新一小部分参数。

NeatReader-1744468190110