admin管理员组

文章数量:1130349

本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

大型语言模型的数据集:一项综合调查

  • 摘要
  • 1 引言
  • 2 预训练语料库
  • 3 指令调整数据集
  • 4 偏好数据集
  • 5 评估数据集
  • 6 传统NLP数据集
  • 7 挑战和未来方向
    • 7.1 预训练语料库
    • 7.2 指令微调数据集
    • 7.3 偏好数据集
    • 7.4 评估数据集
  • 8 结论

摘要

本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github/lmmlzn/Awesome-LLMs-Datasets.

1 引言

随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不

本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

大型语言模型的数据集:一项综合调查

  • 摘要
  • 1 引言
  • 2 预训练语料库
  • 3 指令调整数据集
  • 4 偏好数据集
  • 5 评估数据集
  • 6 传统NLP数据集
  • 7 挑战和未来方向
    • 7.1 预训练语料库
    • 7.2 指令微调数据集
    • 7.3 偏好数据集
    • 7.4 评估数据集
  • 8 结论

摘要

本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github/lmmlzn/Awesome-LLMs-Datasets.

1 引言

随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不

本文标签: languageLARGEDatasetsSurveyComprehensive