研究人员模型索引-369IT编程

admin管理员组
文章数量:1032169

研究人员模型索引

模型一般用于研究目的和生产中的开发人员使用。研究人员经常从已发表的论文中了解OpenAI的模型，但OpenAI API中可用的内容与论文中发表的内容之间通常没有完全匹配。

本文的目的是帮助澄清：

模型训练方式的一些差异，会影响模型之间的比较，以及各种评估结果。
各种模型系列之间的差异，例如 GPT 3.5 和 InstructGPT。
即使现存的API中可用的任何模型与论文中的模型匹配，但在某些情况下，可能会出现无法完全匹配论文提到模型的部分项目。

“GPT 3.5”的模型

GPT-3.5 系列是一系列模型，在 2021 年第四季度之前混合使用文本和代码进行训练。以下型号属于 GPT-3.5 系列：

code-davinci-002是一个基本模型，非常适合纯代码完成任务
text-davinci-002是一个基于code-davinci-002优化，以使其更加适用Text类型的任务
text-davinci-003是对text-davinci-002优化

指导 GPT 模型

我们提供以 3 种不同方式训练的 InstructGPT 模型变体：

训练方法	模型
SFT监督对人体演示进行微调	davinci-instruct-beta1
FeedME监督对人工编写的演示和人工贴标员根据总体质量得分评分为 7/7 的模型样本进行微调	text-davinci-001, , , text-davinci-002text-curie-001text-babbage-001
PPO强化学习，使用从人类比较中训练的奖励模型	text-davinci-003

SFT和PPO模型的训练与InstructGPT论文中的模型类似。FeedME（“反馈变得简单”的缩写）模型是通过从我们所有的模型中提炼出最佳完成来训练的。我们的模型通常在训练时使用最佳可用数据集，因此使用相同训练方法的不同引擎可能会在不同的数据上进行训练。

OpenAI 研究中的特色模型

这些是我们研究论文中介绍的最接近的模型，这些模型目前在 API 中可用。请注意，并非 API 中可用的所有模型都对应于论文，即使对于下面列出的模型，也可能存在细微的差异，无法精确复制论文。

纸	发表	论文上型号名称	API 中的模型名称	参数2
[2005.14165] 语言模型是少数镜头学习者	22 7月 2020	GPT-3 175B	达芬奇	175乙
		GPT-3 6.7B	居里	6.7乙
		GPT-3 1B	巴贝奇	1乙
[2107.03374] 评估在代码上训练的大型语言模型	14 7月 2021	法典 12B	代码-库什曼-0013	12乙
[2201.10005] 通过对比预训练嵌入文本和代码	14 1月 2022	GPT-3 无监督 cpt-text 175B	文本相似性-达芬奇-001	175乙
		GPT-3 无监督 cpt-text 6B	文本相似性居里-001	6乙
		GPT-3 无监督 cpt-text 1.2B	API 上没有紧密匹配的模型	1.2乙
[2009.01325] 学会从人类反馈中总结	15 2月 2022	GPT-3 6.7B 预训练	API 上没有紧密匹配的模型	6.7乙
		GPT-3 2.7B 预训练	API 上没有紧密匹配的模型	2.7乙
		GPT-3 1.3B 预训练	API 上没有紧密匹配的模型	1.3乙
[2203.02155] 训练语言模型以遵循人类反馈的说明	4 3月 2022	指示GPT-3 175B SFT	Davinci-instruct-beta	175乙
		指示GPT-3 175B	API 上没有紧密匹配的模型	175乙
		指示GPT-3 6B	API 上没有紧密匹配的模型	6乙
		指令GPT-3 1.3B	API 上没有紧密匹配的模型	1.3乙

此模型已弃用，此处仅供历史信息使用。
这些参数是本文中指出的参数，在某些情况下可能与 API 中的内容略有不同。
code-cushman-001是 Codex 12B 模型的更强大的多语言版本，用于评估在代码上训练的大型语言模型。

研究人员访问计划

OpenAI官方非常乐于大家使用其API进行探索、研究。如果您想从他们那里得访问计划的机会感兴趣，请使用此表格向他们提供有关您的研究用例的详细信息。特别是，以下方向是特别重要的方向，尽管您可以自由地制定自己的方向：

对齐：我们如何理解模型最能理解追求的目标（如果有的话）？我们如何提高该目标与人类偏好的一致性程度，例如通过提示设计或微调？
公平性和代表性：语言模型中的公平性和代表性应该如何建立绩效标准？如何改进语言模型，以便在特定的部署环境中有效地支持公平和代表性的目标？
跨学科研究：人工智能开发如何借鉴哲学、认知科学和社会语言学等其他学科的见解？
可解释性/透明度：这些模型如何机械地工作？我们能否确定他们正在使用什么概念，或者从模型中提取潜在知识，对训练过程进行推断，或者预测令人惊讶的未来行为？
滥用潜力：像API这样的系统如何被滥用？我们可以开发什么样的“红队”方法来帮助我们和其他人工智能开发人员考虑负责任地部署这样的技术？
模型探索：像 API 提供的模型具有我们尚未探索的各种功能。我们对许多领域的调查感到兴奋，包括模型限制、语言属性、常识推理以及许多其他问题的潜在用途。
稳健性：生成模型具有不均匀的能力表面，具有令人惊讶的强大和令人惊讶的弱能力领域的潜力。大型生成模型对提示中的“自然”扰动有多强大，例如以不同的方式表达相同的想法或有/没有错别字？我们能否预测大型生成模型更有可能健壮（或不健壮）的域和任务类型，以及这与训练数据有何关系？我们可以使用哪些技术来预测和缓解最坏情况的行为？如何在少镜头学习的背景下（例如，跨提示的变化）衡量鲁棒性？我们能否训练模型，使其即使在对抗性输入下也能以非常高的可靠性满足安全属性？

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2023-02-10，如有侵权请联系 cloudcommunity@tencent 删除openai模型入门索引系统

研究人员模型索引

本文的目的是帮助澄清：

模型训练方式的一些差异，会影响模型之间的比较，以及各种评估结果。
各种模型系列之间的差异，例如 GPT 3.5 和 InstructGPT。
即使现存的API中可用的任何模型与论文中的模型匹配，但在某些情况下，可能会出现无法完全匹配论文提到模型的部分项目。

“GPT 3.5”的模型

GPT-3.5 系列是一系列模型，在 2021 年第四季度之前混合使用文本和代码进行训练。以下型号属于 GPT-3.5 系列：

code-davinci-002是一个基本模型，非常适合纯代码完成任务
text-davinci-002是一个基于code-davinci-002优化，以使其更加适用Text类型的任务
text-davinci-003是对text-davinci-002优化

指导 GPT 模型

我们提供以 3 种不同方式训练的 InstructGPT 模型变体：

训练方法	模型
SFT监督对人体演示进行微调	davinci-instruct-beta1
FeedME监督对人工编写的演示和人工贴标员根据总体质量得分评分为 7/7 的模型样本进行微调	text-davinci-001, , , text-davinci-002text-curie-001text-babbage-001
PPO强化学习，使用从人类比较中训练的奖励模型	text-davinci-003

OpenAI 研究中的特色模型

纸	发表	论文上型号名称	API 中的模型名称	参数2
[2005.14165] 语言模型是少数镜头学习者	22 7月 2020	GPT-3 175B	达芬奇	175乙
		GPT-3 6.7B	居里	6.7乙
		GPT-3 1B	巴贝奇	1乙
[2107.03374] 评估在代码上训练的大型语言模型	14 7月 2021	法典 12B	代码-库什曼-0013	12乙
[2201.10005] 通过对比预训练嵌入文本和代码	14 1月 2022	GPT-3 无监督 cpt-text 175B	文本相似性-达芬奇-001	175乙
		GPT-3 无监督 cpt-text 6B	文本相似性居里-001	6乙
		GPT-3 无监督 cpt-text 1.2B	API 上没有紧密匹配的模型	1.2乙
[2009.01325] 学会从人类反馈中总结	15 2月 2022	GPT-3 6.7B 预训练	API 上没有紧密匹配的模型	6.7乙
		GPT-3 2.7B 预训练	API 上没有紧密匹配的模型	2.7乙
		GPT-3 1.3B 预训练	API 上没有紧密匹配的模型	1.3乙
[2203.02155] 训练语言模型以遵循人类反馈的说明	4 3月 2022	指示GPT-3 175B SFT	Davinci-instruct-beta	175乙
		指示GPT-3 175B	API 上没有紧密匹配的模型	175乙
		指示GPT-3 6B	API 上没有紧密匹配的模型	6乙
		指令GPT-3 1.3B	API 上没有紧密匹配的模型	1.3乙

此模型已弃用，此处仅供历史信息使用。
这些参数是本文中指出的参数，在某些情况下可能与 API 中的内容略有不同。
code-cushman-001是 Codex 12B 模型的更强大的多语言版本，用于评估在代码上训练的大型语言模型。

研究人员访问计划

对齐：我们如何理解模型最能理解追求的目标（如果有的话）？我们如何提高该目标与人类偏好的一致性程度，例如通过提示设计或微调？
公平性和代表性：语言模型中的公平性和代表性应该如何建立绩效标准？如何改进语言模型，以便在特定的部署环境中有效地支持公平和代表性的目标？
跨学科研究：人工智能开发如何借鉴哲学、认知科学和社会语言学等其他学科的见解？
可解释性/透明度：这些模型如何机械地工作？我们能否确定他们正在使用什么概念，或者从模型中提取潜在知识，对训练过程进行推断，或者预测令人惊讶的未来行为？
滥用潜力：像API这样的系统如何被滥用？我们可以开发什么样的“红队”方法来帮助我们和其他人工智能开发人员考虑负责任地部署这样的技术？
模型探索：像 API 提供的模型具有我们尚未探索的各种功能。我们对许多领域的调查感到兴奋，包括模型限制、语言属性、常识推理以及许多其他问题的潜在用途。
稳健性：生成模型具有不均匀的能力表面，具有令人惊讶的强大和令人惊讶的弱能力领域的潜力。大型生成模型对提示中的“自然”扰动有多强大，例如以不同的方式表达相同的想法或有/没有错别字？我们能否预测大型生成模型更有可能健壮（或不健壮）的域和任务类型，以及这与训练数据有何关系？我们可以使用哪些技术来预测和缓解最坏情况的行为？如何在少镜头学习的背景下（例如，跨提示的变化）衡量鲁棒性？我们能否训练模型，使其即使在对抗性输入下也能以非常高的可靠性满足安全属性？

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2023-02-10，如有侵权请联系 cloudcommunity@tencent 删除openai模型入门索引系统

本文标签：研究人员模型索引

版权声明：本文标题：研究人员模型索引内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747916445a2227318.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

研究人员模型索引

研究人员模型索引

“GPT 3.5”的模型

指导 GPT 模型

OpenAI 研究中的特色模型

研究人员访问计划

研究人员模型索引

“GPT 3.5”的模型

指导 GPT 模型

OpenAI 研究中的特色模型

研究人员访问计划

更多相关文章

研究人员模型索引

发表评论

推荐文章

windows和ubuntu双系统，win系统迁移后，系统启动项损坏修复

【Docker项目实战】使用Docker部署moments极简朋友圈

非靶向代谢组学—基础知识3（测序报告解读）

设计模式：工厂方法模式(Factory Method)(2)

transformers 4.51.2 更新详解：Llama4 兼容性增强，FBGemm 量化更稳定

热门文章

Nat. Commun.

在vim中实时检测python文件的语法问题

【玩转全栈】—— 无敌前端究极动态组件库

动感音乐导航栏的实现

Win7如何分享局域网并设置共享文件夹账户和密码

Ubuntu20.04 开机黑屏，只有光标闪烁问题解决

企业应用开发中.NET ORM EF常用哪种模式？

【HarmonyOS Next之旅】DevEco Studio使用指南(十四)

观察者模式Observer Pattern

详解Generative Pre

最新文章

编码器

自注意力层（Self

Eureka配置

Transformer的解码器

详解Generative Pre

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow