Datasets for Large Language Models: A Comprehensive Survey-369IT编程

admin管理员组
文章数量:1130349

本文是LLM系列文章，针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

大型语言模型的数据集：一项综合调查

摘要
1 引言
2 预训练语料库
3 指令调整数据集
4 偏好数据集
5 评估数据集
6 传统NLP数据集
7 挑战和未来方向
- 7.1 预训练语料库
- 7.2 指令微调数据集
- 7.3 偏好数据集
- 7.4 评估数据集
8 结论

摘要

本文对大型语言模型（LLM）数据集进行了探索，这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施，类似于支撑和培育LLM发展的根系统。因此，对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题，并深入了解其现状和未来趋势，本调查从五个角度对LLM数据集中的基本方面进行了整合和分类：（1）预训练语料库；（2）指令微调数据集；（3）偏好数据集；（4）评估数据集；（5）传统的自然语言处理（NLP）数据集。该调查揭示了当前的挑战，并指出了未来调查的潜在途径。此外，还提供了对现有可用数据集资源的全面审查，包括444个数据集的统计数据，涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB，其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌，为该领域的研究人员提供全面的参考，并为未来的研究做出贡献。相关资源可访问：https://github/lmmlzn/Awesome-LLMs-Datasets.

1 引言

随着ChatGPT的发布，在短短几个月内，大型语言模型（LLM）引起了越来越多的研究关注，成为研究热点。各种LLM已经相继开源，参数大小从几十亿到一千多亿不

本文是LLM系列文章，针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

大型语言模型的数据集：一项综合调查

摘要
1 引言
2 预训练语料库
3 指令调整数据集
4 偏好数据集
5 评估数据集
6 传统NLP数据集
7 挑战和未来方向
- 7.1 预训练语料库
- 7.2 指令微调数据集
- 7.3 偏好数据集
- 7.4 评估数据集
8 结论

摘要

1 引言

本文标签： language LARGE Datasets Survey Comprehensive

版权声明：本文标题：Datasets for Large Language Models: A Comprehensive Survey 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758742094a2783595.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

Datasets for Large Language Models: A Comprehensive Survey

大型语言模型的数据集：一项综合调查

摘要

1 引言

大型语言模型的数据集：一项综合调查

摘要

1 引言

更多相关文章

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

【综述】Diffusion Models: A Comprehensive Survey of Methods and Applications

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

Understanding LLMs: A Comprehensive Overview from Training to Inference

【FL-LLM论文】FEDERATEDSCOPE-LLM: A COMPREHENSIVE PACKAGE FOR FINE-TUNING LARGE LANGUAGE MODELS IN FL

SAP Predictive Analytics The Comprehensive Guide

【论文阅读】The Deep Learning Compiler: A Comprehensive Survey

MVTec AD—A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection 2019 CVPR

IPQ9574 vs IPQ5424: A Comprehensive Technical Comparison of Wi-Fi 7 SoCs

Analysis and comprehensive comparison of PacBio and nanopore-based RNA sequencing of the Arabidopsis

综述论文“A Comprehensive Survey on Graph Neural Networks”

RAG综述：《A Comprehensive Survey of Retrieval-Augmented Generation (RAG)》

A Comprehensive Study of Knowledge Editing for Large Language Models

探索 Comprehensive Rust：全方位学习 Rust 语言的资源库

(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

《Comprehensive Privacy Analysis of Deep Learning》补完以及Deepfool对抗样本构造算法

HTML5 Web SQL: A Comprehensive Guide

（四十三）：Comprehensive Linguistic-Visual Composition Network for Image Retrieval

B3U4 Text A Language Focus 共34词

发表评论

推荐文章

海信电视怎么看腾讯的电影电视剧？海信要在哪看腾讯节目？

canvas 动画库 CreateJs 之 EaselJS（下篇）

c盘空间爆红了，自动执行c盘扩容（diskegenius）使用方法

分享一个很好的卸载绿色软件:Geek Uninstaller(个人用户免费)

小米笔记本充电实测追求速度牺牲兼容性小米笔记本充电驱动_开学劲薄之高性价比笔记本电脑选购指南...

热门文章

WIN10底部任务栏卡死解决方案

Anaconda进行虚拟环境管理（conda命令总结）

系统里存在两个不同版本的Anaconda环境，给特定环境安装包

ChatGPT 4：解锁AI文案、绘画与视频创作新纪元

Android修改读写速度,技术宅 篇一：如何让旧安卓手机的速度重新飞一会儿（使用开发者选项）通过改设置加快速度...

Windows系统垃圾清理全攻略：从基础到高级指南

【亲测免费】 LibreCAD 源码下载

Windows11 25H2 游戏版！Win11专业工作站版 Windows11 25H2游戏定制优化！6种版本：Win11 25H2专业版、Win11 25H2专业工作站版、Win11 25H2字体

50 行代码，实现中英文翻译

【Tools】VMware Workstation 17 Pro安装教程

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

Android修改读写速度,技术宅篇一：如何让旧安卓手机的速度重新飞一会儿（使用开发者选项）通过改设置加快速度...

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程