WHAT MAKES GOOD DATA FOR ALIGNMENT? A COMPREHENSIVE STUDY OF AUTOMATIC DATA SELECTION IN INSTRUCTION-369IT编程

admin管理员组
文章数量:1130349

这篇文章提出了DEITA的数据集筛选方法

进化复杂度

目前评估复杂度的几种方法：

随机选择
长度
困惑度
大模型评分
指令结点数
评分模型（Instag）
IFD

本文的做法：
让GPT给一个指令增加复杂度，生成6段对应的文本。然后用GPT给这六段文本打分和排序。不同于一次一次打分，一次给6段原意相同的文本再打分，作者说效果更好。作者说如果是一个一个单独评，大模型倾向都给高分。

进化质量

方法完全相同，直接看结果

多样性方法：

直接使用embedding，然后计算余弦距离d，当d<threshold才加入？感觉这里是写错了，应该是余弦相似度？选距离近的点怎么会增加多样性。

完整方法

先从质量和复杂度两个角度，将一个指令扩展成6个指令，然后让GPT对这6个指令一起打分。得到打分的结果后，训练两个Llama对数据进行评价。

得到质量和复杂度两个评价后，简单的将两者相乘，作为指标的结果。然后按照这个得分排序，一

这篇文章提出了DEITA的数据集筛选方法

进化复杂度

目前评估复杂度的几种方法：

随机选择
长度
困惑度
大模型评分
指令结点数
评分模型（Instag）
IFD

进化质量

方法完全相同，直接看结果

多样性方法：

直接使用embedding，然后计算余弦距离d，当d<threshold才加入？感觉这里是写错了，应该是余弦相似度？选距离近的点怎么会增加多样性。

完整方法

先从质量和复杂度两个角度，将一个指令扩展成6个指令，然后让GPT对这6个指令一起打分。得到打分的结果后，训练两个Llama对数据进行评价。

得到质量和复杂度两个评价后，简单的将两者相乘，作为指标的结果。然后按照这个得分排序，一

本文标签： ALIGNMENT Comprehensive Good DATA Selection

版权声明：本文标题：WHAT MAKES GOOD DATA FOR ALIGNMENT? A COMPREHENSIVE STUDY OF AUTOMATIC DATA SELECTION IN INSTRUCTION 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758721842a2783324.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

点云配准综述一篇综述《A comprehensive survey on point cloud registration》（翻译）

6月前

参照了 2021最新关于点云配准的全面综述 - 知乎，并且加了些自己翻译，全篇的内容可能稍有删减。主要作为个人笔记，阅读了几篇综述，发现这篇是质量较好的

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

6月前

本文也是LLM系列相关文章，针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。MME:一个多模态大型语言模型的综合

Comprehensive Deep Learning Tutorial: 项目使用说明

6月前

Comprehensive Deep Learning Tutorial: 项目使用说明1. 项目的目录结构及介绍本项目 Comprehensive_DL_Tutor 的目录结构如下：Comprehensive_

a comprehensive guide for linear ridge and lasso regression

6月前

https:www.analyticsvidhyablog201706a-comprehensive-guide-for-linear-ridge-and-lasso-regression

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

6月前

摘要(Abstract)：论文介绍了MVBench，这是一个全新的多模态视频理解基准测试，旨在评估多模态大型语言模型（MLLMs）在视频理解方面的能力。目前许多基准测试主要集中在静态图像任务的空间理解上，而忽视了动态视频任务中的时间理

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

6月前

一、研究背景1、Deepfake detection领域缺乏一个标准、统一、全面的benchmark。现有方法的数据处理、实验设置、评估策略、度量方式不一致。2、现有检测方法分为： Naive detector、S

综述论文阅读”A comprehensive survey on graph neural networks“（TNNLS2020）

6月前

论文标题 A comprehensive survey on graph neural networks 论文作者、链接作者：Wu, Zonghan and Pan, Shirui and Chen, Fen

ck+database:Comprehensive Database for Facial Expression Analysis论文笔记

6月前

Comprehensive Database for Facial Expression Analysis摘要：

QCN9074 vs QCN9024: A Comprehensive Analysis of Qualcomm‘s WiFi 6 Main Chips

6月前

As wireless communication technology evolves, WiFi 6 (802.11ax) has become the mainstream standard for next-generation h

【阅读笔记】PPFL全面综述文章: A Comprehensive Survey of Privacy-preserving Federated Learning

6月前

PPFL全面综述前言一、个人拙见1. 什么是联邦学习？2. 联邦学习与分布式机器学习的区别3. 联邦学习的应用与前景二、综述解析1. INTRODUCTION1.1 Background1.2 Motivation1.

ChatGPT 拓展资料：论文阅读A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to Chat

6月前

ChatGPT 拓展资料：A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT目录A Comprehensive

MVTec AD—A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection 2019 CVPR

6月前

MVTec AD—A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection 2019 CVPR作者：Paul Bergmann最大贡

A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY

6月前

本文是LLM系列文章，针对《A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY》的翻译。关于评估医

Linux MongoDB: A Comprehensive Guide

6月前

Linux MongoDB: A Comprehensive Guide MongoDB is a popular NoSQL database known for its scalability, flexibility, and hi

综述论文“A Comprehensive Survey on Graph Neural Networks”

6月前

arXiv在2019年12月4号上传的关于GNN综述论文“A Comprehensive Survey on Graph Neural Networks“。摘要：近年来，深度学习彻底改变了许多机器学习任务，从图像分类和视频处理到语音识别和

【综述】A Comprehensive Survey on Community Detection with Deep Learning

6月前

论文链接：A Comprehensive Survey on Community Detection With Deep Learning | IEEE Journals & Magazine | IEEE X

armbian good

4月前

armbian good armbian goodarmbian good armbian goodarmbian good armbian goodarmbian good armbian good

ORA-01157cannot identifylock data file 1 - see DBWR trace file，ORA-01110:

4月前

问题描述在云平台添加容器时，启动实例时显示错误ORA-01157、ORA-01110 SQL> startupORACLE instance started.Total System Global Are

【精】ORA-01157: cannot identifylock data file 6 - see DBWR trace file ORA-01110: 解决方法

4月前

今天登陆到数据库做了一个小测试后忘记了用命令删除表空间，直接在Linux下删掉了数据文件，结果，悲剧就开始了。(弄明白了整理出来大家共同study)实验环境&#xf

如何查看android data 内容

4月前

这段时间研究android 开发，开始时候用eclipse 模拟器，每次运行程序的时候，模拟器启动都很慢。找了个以前旧的android手机做模拟器。运行程序真快。运行了个

369IT编程

WHAT MAKES GOOD DATA FOR ALIGNMENT? A COMPREHENSIVE STUDY OF AUTOMATIC DATA SELECTION IN INSTRUCTION

进化复杂度

进化质量

多样性方法：

完整方法

进化复杂度

进化质量

多样性方法：

完整方法

更多相关文章

点云配准综述一篇综述《A comprehensive survey on point cloud registration》（翻译）

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Comprehensive Deep Learning Tutorial: 项目使用说明

a comprehensive guide for linear ridge and lasso regression

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

综述论文阅读”A comprehensive survey on graph neural networks“（TNNLS2020）

ck+database:Comprehensive Database for Facial Expression Analysis论文笔记

QCN9074 vs QCN9024: A Comprehensive Analysis of Qualcomm‘s WiFi 6 Main Chips

【阅读笔记】PPFL全面综述文章: A Comprehensive Survey of Privacy-preserving Federated Learning

ChatGPT 拓展资料：论文阅读A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to Chat

MVTec AD—A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection 2019 CVPR

A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY

Linux MongoDB: A Comprehensive Guide

综述论文“A Comprehensive Survey on Graph Neural Networks”

【综述】A Comprehensive Survey on Community Detection with Deep Learning

armbian good

ORA-01157cannot identifylock data file 1 - see DBWR trace file，ORA-01110:

【精】ORA-01157: cannot identifylock data file 6 - see DBWR trace file ORA-01110: 解决方法

如何查看android data 内容

发表评论

推荐文章

Blogger: Beyond the Basics: Customize and promote your blog with original templates, analytics, adve

moonlight+sunshine实现

【C盘空间不足怎么办】

计算机系学生thinkbook,ThinkBook系列性能差，只能当一台学习机？其实它只是专注于办公...

850元全新N305迷你主机，8核8线程设计，性能媲美10代i5，自带16G内存，双网口设计，但弊端过于明显！

热门文章

360极速浏览器切换至极速模式的详细操作指南

Memory allocation详解

ChatGPT 崩了，崩的很彻底！

河南科技学院CSDN高校俱乐部——路由器配置+数据恢复+破解开机密码

win7下修改hosts文件

一起认识操作系统

win10服务器怎么备份系统,win10自带备份功能怎么备份系统

mac 软件打包流程 packages打包教程

计算机专业必须要i7处理器,电脑配置i7处理器的人不一定都懂电脑

CPU基础扫盲：开发人员不得不了解的CPU那些事

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程