Embedding Models 嵌入模型#
非结构化文本数据本身通常很难处理。它们不是我们可以直接处理、可视化并从中创建可操作结果的值。我们首先必须将此文本数据转换为我们可以轻松处理的内容:数值表示。此过程通常称为将输入嵌入到可使用的向量中,即嵌入。 通常,我们希望捕捉语义本质——文档的意义。如果我们能够捕捉到文档所传达的核心内容,我们希望已经捕捉到了文档的内容。在实践中,这意味着我们期望彼此相似的文档向量是相似的,而每个讨论完全不同的事情的文档的嵌入应该是不相似的。我们在这本书中已经多次看到了这种语义相似性的想法


What Is Contrastive Learning? 对比学习#
训练和微调文本嵌入模型的一种主要技术称为对比学习。对比学习是一种旨在训练嵌入模型的技术,使得相似的文档在向量空间中更接近,而不相似的文档则更远。
对比学习的基本思想是,学习和建模文档之间相似性/差异性的最佳方法是向模型提供相似和不相似对的示例。为了准确捕捉文档的语义本质,通常需要将其与另一个文档进行对比,以便模型学习使其不同或相似的因素。这种对比过程非常强大,并且与文档编写的上下文相关
