admin管理员组文章数量:1130349
本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。
大型语言模型的数据集:一项综合调查
- 摘要
- 1 引言
- 2 预训练语料库
- 3 指令调整数据集
- 4 偏好数据集
- 5 评估数据集
- 6 传统NLP数据集
- 7 挑战和未来方向
-
- 7.1 预训练语料库
- 7.2 指令微调数据集
- 7.3 偏好数据集
- 7.4 评估数据集
- 8 结论
摘要
本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github/lmmlzn/Awesome-LLMs-Datasets.
1 引言
随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不
本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。
大型语言模型的数据集:一项综合调查
- 摘要
- 1 引言
- 2 预训练语料库
- 3 指令调整数据集
- 4 偏好数据集
- 5 评估数据集
- 6 传统NLP数据集
- 7 挑战和未来方向
-
- 7.1 预训练语料库
- 7.2 指令微调数据集
- 7.3 偏好数据集
- 7.4 评估数据集
- 8 结论
摘要
本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github/lmmlzn/Awesome-LLMs-Datasets.
1 引言
随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不
本文标签: languageLARGEDatasetsSurveyComprehensive
版权声明:本文标题:Datasets for Large Language Models: A Comprehensive Survey 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1758742094a2783595.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论