Creating Text Embedding Models

Embedding Models 嵌入模型#

非结构化文本数据本身通常很难处理。它们不是我们可以直接处理、可视化并从中创建可操作结果的值。我们首先必须将此文本数据转换为我们可以轻松处理的内容：数值表示。此过程通常称为将输入嵌入到可使用的向量中，即嵌入。通常，我们希望捕捉语义本质——文档的意义。如果我们能够捕捉到文档所传达的核心内容，我们希望已经捕捉到了文档的内容。在实践中，这意味着我们期望彼此相似的文档向量是相似的，而每个讨论完全不同的事情的文档的嵌入应该是不相似的。我们在这本书中已经多次看到了这种语义相似性的想法

NeatReader-1744466906898