Embeddings-369IT编程

admin管理员组
文章数量:1031968

Embeddings

什么是嵌入？

OpenAI的文本嵌入衡量文本字符串的相关性。嵌入通常用于：

搜索（其中结果按与查询字符串的相关性排名）
聚类（其中文本字符串按相似性分组）
推荐（推荐具有相关文本字符串的项目）
异常检测（识别出相关性不大的异常值）
多样性测量（分析相似性分布）
分类（其中文本字符串按其最相似的标签分类）

嵌入是浮点数的向量（列表）。两个向量之间的距离衡量它们的相关性。小距离表示高相关性，大距离表示低相关性。

如何获取嵌入

要获取嵌入，请将文本字符串发送到嵌入 API 终结点，同时选择嵌入模型 ID（例如，）。响应将包含一个嵌入，您可以提取、保存和使用嵌入。text-embedding-ada-002

示例请求：

代码语言：javascript代码运行次数：0运行复制

curl  \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Your text string goes here",
       "model":"text-embedding-ada-002"}'

示例响应：

代码语言：javascript代码运行次数：0运行复制

{
  "data": [
    {
      "embedding": [
        -0.006929283495992422,
        -0.005336422007530928,
        ...
        -4.547132266452536e-05,
        -0.024047505110502243
      ],
      "index": 0,
      "object": "embedding"
    }
  ],
  "model": "text-embedding-ada-002",
  "object": "list",
  "usage": {
    "prompt_tokens": 5,
    "total_tokens": 5
  }
}

在OpenAI Cookbook 中查看更多 Python 代码示例。

使用 OpenAI 嵌入时，请记住它们的局限性和风险。

嵌入模型

OpenAI 提供 1 个第二代嵌入模型（用模型 ID 表示）和 16 个第一代模型（用模型 ID 表示）。-002-001

我们建议对几乎所有用例使用文本嵌入-ada-002。它更好、更便宜、更易于使用。阅读博客文章公告。

模型生成	分词器	最大输入令牌数	知识截止
V2 版	cl100k_base	8191	2021 年 9 月
V1 版	GPT-2/GPT-3	2046	2020 年 8 月

使用量按每个输入令牌定价，费率为每 1000 个令牌 0.0004 USD，或每美元约 ~3，000 页（假设每页 ~800 个令牌）：

型	每美元粗略页数	BEIR搜索评估中的示例性能
文本嵌入-ADA-002	3000	53.9
-达芬奇--001	6	52.8
-居里--001	60	50.9
-巴贝奇--001	240	50.4
-阿达--001	300	49.0

第二代车型

型号名称	分词器	最大输入令牌数	输出尺寸
文本嵌入-ADA-002	cl100k_base	8191	1536

第一代型号（不推荐）

使用案例

在这里，我们展示了一些具有代表性的用例。对于以下示例，我们将使用亚马逊美食评论数据集。

获取嵌入

该数据集包含截至 2012 年 10 月亚马逊用户留下的 568，454 条食品评论。我们将使用 1，000 条最新评论的子集进行说明。评论是英文的，往往是正面或负面的。每条评论都有一个产品 ID、用户 ID、分数、评论标题（摘要）和评论正文（文本）。例如：

产品编号	用户标识	得分	总结	发短信
B001E4KFG0	A3SGXH7AUHU8GW	5	优质狗粮	我买了几个活力罐头...
B00813GRG4	A1D87F6ZCVE5NK	1	不像广告上所说的那样	产品到达时标有巨型盐渍花生...

我们将评论摘要和评论文本合并为一个组合文本。该模型将对此组合文本进行编码并输出单个向量嵌入。

Obtain_dataset.ipynb

代码语言：javascript代码运行次数：0运行复制

def get_embedding(text, model="text-embedding-ada-002"):
   text = text.replace("\n", " ")
   return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']
 
df['ada_embedding'] = dfbined.apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

要从保存的文件加载数据，可以运行以下命令：

代码语言：javascript代码运行次数：0运行复制

import pandas as pd
 
df = pd.read_csv('output/embedded_1k_reviews.csv')
df['ada_embedding'] = df.ada_embedding.apply(eval).apply(np.array)

2D 数据可视化

嵌入为 ML 算法的文本特征编码器

使用嵌入特征进行分类

零镜头分类

获取用户和产品嵌入以进行冷启动建议

聚类

使用嵌入进行文本搜索

使用嵌入进行代码搜索

使用嵌入的建议

限制与风险

在某些情况下，我们的嵌入模型可能不可靠或构成社会风险，并且在没有缓解措施的情况下可能会造成伤害。

社会偏见

局限性：这些模型编码社会偏见，例如通过对某些群体的刻板印象或负面情绪。

我们通过运行SEAT（May等人，2019）和Winogender（Rudinger等人，2018）基准测试在我们的模型中发现了偏见的证据。这些基准共同由 7 个测试组成，用于衡量模型在应用于性别名称、区域名称和一些刻板印象时是否包含隐性偏见。

例如，我们发现，与非裔美国人的名字相比，我们的模型更强烈地将（a）欧洲裔美国人的名字与积极的情绪联系起来，（b）消极的刻板印象与黑人女性联系起来。

这些基准在几个方面受到限制：（a）它们可能无法推广到您的特定用例，以及（b）它们仅测试一小部分可能的社会偏见。

这些测试是初步的，我们建议针对您的特定用例运行测试。这些结果应被视为该现象存在的证据，而不是您的用例的明确特征。请参阅我们的使用政策以获取更多详细信息和指导。

如果您有任何疑问，请通过聊天联系我们的支持团队;我们很乐意就此提供建议。

对最近发生的事件视而不见

限制：模型缺乏对 2020 年 8 月之后发生的事件的了解。

我们的模型在包含截至 2020 年 8 月的真实世界事件的一些信息的数据集上进行训练。如果您依赖代表最近事件的模型，那么它们可能无法很好地执行。

常见问题

在嵌入字符串之前，如何判断字符串有多少个标记？

在Python中，你可以使用OpenAI的tokenizertiktoken将字符串拆分为代币。

示例代码：

代码语言：javascript代码运行次数：0运行复制

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

num_tokens_from_string("tiktoken is great!", "cl100k_base")

对于第二代嵌入模型，例如，请使用编码。text-embedding-ada-002cl100k_base

更多详细信息和示例代码在 OpenAI 食谱指南如何使用tiktoken 计算代币。

如何快速检索 K 最近的嵌入向量？

为了快速搜索多个载体，我们建议使用矢量数据库。您可以在 GitHub 上的食谱中找到使用矢量数据库和 OpenAI API 的示例。

矢量数据库选项包括：

松果，一个完全托管的载体数据库
Weaviate，一个开源的矢量搜索引擎
Faiss，Facebook的矢量搜索算法
作为矢量数据库的 Redis
Qdrant，一个矢量搜索引擎
Typesense，开源搜索引擎，带矢量搜索

我应该使用哪种距离函数？

我们建议余弦相似性。距离函数的选择通常并不重要。

OpenAI 嵌入被规范化为长度 1，这意味着：

余弦相似性的计算速度稍快，只需使用点积即可
余弦相似性和欧几里得距离将导致相同的排名

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2023-02-20，如有侵权请联系 cloudcommunity@tencent 删除模型入门系统apiopenai

Embeddings

什么是嵌入？

OpenAI的文本嵌入衡量文本字符串的相关性。嵌入通常用于：

搜索（其中结果按与查询字符串的相关性排名）
聚类（其中文本字符串按相似性分组）
推荐（推荐具有相关文本字符串的项目）
异常检测（识别出相关性不大的异常值）
多样性测量（分析相似性分布）
分类（其中文本字符串按其最相似的标签分类）

嵌入是浮点数的向量（列表）。两个向量之间的距离衡量它们的相关性。小距离表示高相关性，大距离表示低相关性。

如何获取嵌入

示例请求：

代码语言：javascript代码运行次数：0运行复制

curl  \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Your text string goes here",
       "model":"text-embedding-ada-002"}'

示例响应：

代码语言：javascript代码运行次数：0运行复制

{
  "data": [
    {
      "embedding": [
        -0.006929283495992422,
        -0.005336422007530928,
        ...
        -4.547132266452536e-05,
        -0.024047505110502243
      ],
      "index": 0,
      "object": "embedding"
    }
  ],
  "model": "text-embedding-ada-002",
  "object": "list",
  "usage": {
    "prompt_tokens": 5,
    "total_tokens": 5
  }
}

在OpenAI Cookbook 中查看更多 Python 代码示例。

使用 OpenAI 嵌入时，请记住它们的局限性和风险。

嵌入模型

OpenAI 提供 1 个第二代嵌入模型（用模型 ID 表示）和 16 个第一代模型（用模型 ID 表示）。-002-001

我们建议对几乎所有用例使用文本嵌入-ada-002。它更好、更便宜、更易于使用。阅读博客文章公告。

模型生成	分词器	最大输入令牌数	知识截止
V2 版	cl100k_base	8191	2021 年 9 月
V1 版	GPT-2/GPT-3	2046	2020 年 8 月

使用量按每个输入令牌定价，费率为每 1000 个令牌 0.0004 USD，或每美元约 ~3，000 页（假设每页 ~800 个令牌）：

型	每美元粗略页数	BEIR搜索评估中的示例性能
文本嵌入-ADA-002	3000	53.9
-达芬奇--001	6	52.8
-居里--001	60	50.9
-巴贝奇--001	240	50.4
-阿达--001	300	49.0

第二代车型

型号名称	分词器	最大输入令牌数	输出尺寸
文本嵌入-ADA-002	cl100k_base	8191	1536

第一代型号（不推荐）

使用案例

在这里，我们展示了一些具有代表性的用例。对于以下示例，我们将使用亚马逊美食评论数据集。

获取嵌入

产品编号	用户标识	得分	总结	发短信
B001E4KFG0	A3SGXH7AUHU8GW	5	优质狗粮	我买了几个活力罐头...
B00813GRG4	A1D87F6ZCVE5NK	1	不像广告上所说的那样	产品到达时标有巨型盐渍花生...

我们将评论摘要和评论文本合并为一个组合文本。该模型将对此组合文本进行编码并输出单个向量嵌入。

Obtain_dataset.ipynb

代码语言：javascript代码运行次数：0运行复制

def get_embedding(text, model="text-embedding-ada-002"):
   text = text.replace("\n", " ")
   return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']
 
df['ada_embedding'] = dfbined.apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

要从保存的文件加载数据，可以运行以下命令：

代码语言：javascript代码运行次数：0运行复制

import pandas as pd
 
df = pd.read_csv('output/embedded_1k_reviews.csv')
df['ada_embedding'] = df.ada_embedding.apply(eval).apply(np.array)

2D 数据可视化

嵌入为 ML 算法的文本特征编码器

使用嵌入特征进行分类

零镜头分类

获取用户和产品嵌入以进行冷启动建议

聚类

使用嵌入进行文本搜索

使用嵌入进行代码搜索

使用嵌入的建议

限制与风险

在某些情况下，我们的嵌入模型可能不可靠或构成社会风险，并且在没有缓解措施的情况下可能会造成伤害。

社会偏见

局限性：这些模型编码社会偏见，例如通过对某些群体的刻板印象或负面情绪。

这些基准在几个方面受到限制：（a）它们可能无法推广到您的特定用例，以及（b）它们仅测试一小部分可能的社会偏见。

如果您有任何疑问，请通过聊天联系我们的支持团队;我们很乐意就此提供建议。

对最近发生的事件视而不见

限制：模型缺乏对 2020 年 8 月之后发生的事件的了解。

我们的模型在包含截至 2020 年 8 月的真实世界事件的一些信息的数据集上进行训练。如果您依赖代表最近事件的模型，那么它们可能无法很好地执行。

常见问题

在嵌入字符串之前，如何判断字符串有多少个标记？

在Python中，你可以使用OpenAI的tokenizertiktoken将字符串拆分为代币。

示例代码：

代码语言：javascript代码运行次数：0运行复制

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

num_tokens_from_string("tiktoken is great!", "cl100k_base")

对于第二代嵌入模型，例如，请使用编码。text-embedding-ada-002cl100k_base

更多详细信息和示例代码在 OpenAI 食谱指南如何使用tiktoken 计算代币。

如何快速检索 K 最近的嵌入向量？

为了快速搜索多个载体，我们建议使用矢量数据库。您可以在 GitHub 上的食谱中找到使用矢量数据库和 OpenAI API 的示例。

矢量数据库选项包括：

松果，一个完全托管的载体数据库
Weaviate，一个开源的矢量搜索引擎
Faiss，Facebook的矢量搜索算法
作为矢量数据库的 Redis
Qdrant，一个矢量搜索引擎
Typesense，开源搜索引擎，带矢量搜索

我应该使用哪种距离函数？

我们建议余弦相似性。距离函数的选择通常并不重要。

OpenAI 嵌入被规范化为长度 1，这意味着：

余弦相似性的计算速度稍快，只需使用点积即可
余弦相似性和欧几里得距离将导致相同的排名

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2023-02-20，如有侵权请联系 cloudcommunity@tencent 删除模型入门系统apiopenai

本文标签： Embeddings

版权声明：本文标题：Embeddings 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747903218a2225352.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

Embeddings

Embeddings

什么是嵌入？

如何获取嵌入

嵌入模型

第二代车型

使用案例

获取嵌入

限制与风险

社会偏见

对最近发生的事件视而不见

常见问题

在嵌入字符串之前，如何判断字符串有多少个标记？

如何快速检索 K 最近的嵌入向量？

我应该使用哪种距离函数？

Embeddings

什么是嵌入？

如何获取嵌入

嵌入模型

第二代车型

使用案例

获取嵌入

限制与风险

社会偏见

对最近发生的事件视而不见

常见问题

在嵌入字符串之前，如何判断字符串有多少个标记？

如何快速检索 K 最近的嵌入向量？

我应该使用哪种距离函数？

更多相关文章

Embeddings

发表评论

推荐文章

deeplake v4.2.1震撼发布！自动提交压缩+异步API升级，AI数据管理效率翻倍

医院数据中心智能化数据上报与调数机制设计

单细胞geneNMF分析流程学习

Windows11系统::Java jdk的下载与环境配置(这里以jdk17为示范)

适配器设计模式Adapter Pattern

热门文章

ThinkPatterns

windows蓝牙驱动开发-蓝牙无线电重置和恢复

WePush 一款基于模拟点击实现的微信消息推送机器人，安全稳定不封号

Windows 11【1001问】如何下载Windows 11系统镜像

Go语言的Fan

SpaGene：识别空间模式与配受体共定位

5.3K star！硅基生命新纪元，这个开源数字人框架要火！

NFT技术的应用领域

计算机网络知识总结：ip地址、分类及什么样的ip主机地址可以分配给主机使用

RabbitMQ简介

最新文章

BlockingQueue使用指南

Java 中的同步关键字指南

离散型随机变量和连续型随机变量有什么区别

Locks使用指南

离散型随机变量的概率质量函数推导

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow