综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二)-369IT编程

admin管理员组
文章数量:1130349

文章目录

- 综述：基于深度学习的文本分类
- - - 《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)
    - 3.文本分类数据集
    - - 3.1 情绪分析数据集
      - 3.2新闻分类数据集
      - 3.3主题分类数据集
      - 3.4 QA Datasets
      - 3.5 NLI数据集
    - 4.实验性能分析
    - - 4.1 常用的文本分类指标
      - Accuracy and Error Rate
        
        Precision / Recall / F1 score
      - Exact Match (EM)
      - Mean Reciprocal Rank (MRR)平均倒数排名
    - 5.挑战和机遇

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning based text classification: A comprehensive review[J]. arXiv preprint arXiv:2004.03705, 2020.
原文链接：https://arxiv/pdf/2004.03705.pdf

参考博主「一只羊呀」:Deep Learning Based Text Classification: A Comprehensive Review（部分翻译总结）的总结

3.文本分类数据集

3.1 情绪分析数据集

Yelp:Yelp是最流行的情感分类数据集之一。在此数据集上定义了两个分类任务。一种是检测细粒度的情感标签，称为Yelp-5。另一个预测负面和正面情绪，被称为Yelp评论极性或Yelp-2。
IMDb:IMDB数据集被开发用于电影评论的二进制情感分类的任务。
SST:斯坦福情感树库（SST）数据集。有两个版本可用，一个带有细粒度标签（五类），另一个带有二进制标签，称为SST-1和SST-2。
MPQA:多视角问答数据集，是具有两个类别的意见语料库标签。
Amazon：这是从亚马逊网站收集的热门产品评论语料库。
一些受欢迎的数据集包括SemEval-2014 Task4，Twitter，SentiHood等。

3.2新闻分类数据集

AG News：是学术新闻搜索引擎ComeToMyHead从2000多个新闻来源收集的新闻文章的集合。每个样本都是带有四类标签的简短文本。
20 Newsgroups：是发布在20个不同主题上的新闻组文档的集合。
Sogou News：是SogouCA和SogouCS新闻语料库的混合。
Reuters news：是用于文本分类研究的最广泛使用的数据集之一。
为新闻分类开发的其他数据集包括：Bing news, NYTimes, BBC, Google news。

3.3主题分类数据集

DBpedia：是大规模的多语言知识库，它是根据Wikipedia中最常用的信息框创建的。
Ohsumed：每个文档都是医学摘要，由选自23种心血管疾病类别的一个或多个类别标记。
EUR-Lex：包括不同类型的文档，这些文档根据几种正交分类方案进行索引以允许使用多种搜索工具。该数据集的最流行版本基于欧盟法律的不同方面。
WOS：Web of Science（WOS）数据集是可从Web of Science获得的已发表论文的数据和元数据的集合。
PubMed：PubMed是由美国国家医学图书馆开发的搜索引擎，用于医学和生物科学论文。

3.4 QA Datasets

SQuAD：斯坦福大学问答数据集（SQuAD）是从Wikipedia文章中获得的问题-答案对的集合。
MS MARCO：该数据集由Microsoft发布。与SQuAD不同的是，所有问题都是由编辑产生的；在MS MARCO中，使用Bing搜索引擎从用户查询和真实Web文档的段落中抽取所有问题。
TREC-QA：是用于QA研究的最受欢迎和研究最多的数据集之一。该数据集具有两个版本，称为TREC-6和TREC-50。TREC-6由6个类别的问题组成，而TREC-50由五十个类别的问题组成。
WikiQA：由一组问题-答案对组成，它们被收集并注释以用于开放域QA研究。数据集还包含没有正确答案的问题，使研究人员可以评估答案触发模型。
Quora：包含超过40万个问题对。为每个问题对分配一个二进制值，指示两个问题是否相同。
其他数据集包括Adversarial Generations (SWAG), WikiQA, SelQA。

3.5 NLI数据集

SNLI：斯坦福自然语言推断数据集被广泛用于NLI。该数据集包含550,1句子对，每对带有三个标签之一：neutral, entailment, contradiction。
Multi-NLI：SNLI的扩展，涵盖更广泛的口语和书面语体裁，并支持独特的跨体裁归纳评估。
SICK：英语句子对，并用三个标签进行注释：entailment, contradiction, and neutral。
MSRP：通常用于文本相似性任务。每个样本都是一个句子对，并用二进制标签注释，指示两个句子是否为释义。
其他NLI数据集还包括Semantic Textual Similarity (STS), RTE, SciTail。

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

A c c u r a c y = ( T P + T N ) N , E r r o r r a t e = ( F P + F N ) N Accuracy=\frac{\left( TP+TN \right)}{N},Error\ rate=\frac{\left( FP+FN \right)}{N} Accuracy=N(TP+

文章目录

- 综述：基于深度学习的文本分类
- - - 《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)
    - 3.文本分类数据集
    - - 3.1 情绪分析数据集
      - 3.2新闻分类数据集
      - 3.3主题分类数据集
      - 3.4 QA Datasets
      - 3.5 NLI数据集
    - 4.实验性能分析
    - - 4.1 常用的文本分类指标
      - Accuracy and Error Rate
        
        Precision / Recall / F1 score
      - Exact Match (EM)
      - Mean Reciprocal Rank (MRR)平均倒数排名
    - 5.挑战和机遇

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning based text classification: A comprehensive review[J]. arXiv preprint arXiv:2004.03705, 2020.
原文链接：https://arxiv/pdf/2004.03705.pdf

参考博主「一只羊呀」:Deep Learning Based Text Classification: A Comprehensive Review（部分翻译总结）的总结

3.文本分类数据集

3.1 情绪分析数据集

3.2新闻分类数据集

3.3主题分类数据集

3.4 QA Datasets

3.5 NLI数据集

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

A c c u r a c y = ( T P + T N ) N , E r r o r r a t e = ( F P + F N ) N Accuracy=\frac{\left( TP+TN \right)}{N},Error\ rate=\frac{\left( FP+FN \right)}{N} Accuracy=N(TP+

本文标签：深度文本 learning deep based

版权声明：本文标题：综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758722383a2783330.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二)

文章目录

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

3.文本分类数据集

3.1 情绪分析数据集

3.2新闻分类数据集

3.3主题分类数据集

3.4 QA Datasets

3.5 NLI数据集

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

文章目录

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

3.文本分类数据集

3.1 情绪分析数据集

3.2新闻分类数据集

3.3主题分类数据集

3.4 QA Datasets

3.5 NLI数据集

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

更多相关文章

win10和深度linux双系统,[System win10 deepin]双系统安装（win10和deepin双系统）

基于深度学习的农作物叶片病害检测系统（UI界面+YOLOv5+训练数据集）

基于深度学习的动物识别系统（YOLOv5清新界面版，Python代码）

深度学习推荐系统实战笔记

深度linux操作系统

Linux ubuntu系统安装 以及深度学习环境安装

【深度学习目标检测】二十四、基于深度学习的疲劳驾驶检测系统-含数据集、GUI和源码（python，yolov8）

项目实战：基于深度学习的人脸表情识别系统设计与实现

基于深度学习的垃圾分类识别系统

深度系统linux分区格式,国产系统deepin硬盘安装方法（分区为mbr格式）

基于深度学习的车牌检测系统（含UI界面，Python代码）

《蘑菇游戏下载器深度体验：下载加速+多任务设置技巧》

显著性目标检测之Learning to Promote Saliency Detectors

模型选择终极指南：Llama 2 7B Chat GGUF全量化方案深度测评

8G显存玩转多模态大模型：MiniCPM-Llama3-V 2.5-int4量化版深度评测

冰点还原精灵Deep Freeze8.57软件下载

不用微信也可以聊天？教你使用Windows文本文档实现在外随时沟通！

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

经典深度学习论文中英文翻译

9700 功耗测试软件,砍掉超线程！Intel i7-9700K深度评测：战平R7 就是太贵

发表评论

推荐文章

C盘空间不足？两款免费系统清理工具推荐

DELL XPS 13 9350 装Win7系统（坑爹）

2015 MACBOOK 重装

google浏览器推荐的翻译插件-沉浸式翻译

服务器主板支持什么cpu,怎么看主板支持什么CPU（主板和cpu兼容搭配知识）

热门文章

【愚公系列】2023年10月 Winform控件专题 RichTextBox控件详解

win10任务栏一点就卡死或闪黑屏解决办法

GitHub热门开源项目-2024版

中兴手机刷机

Market - Promote

Win10纯净版与办公版：如何做出明智选择

Nordic 芯片包 sdk 软件相关下载地址

Typora软件配置，让它成为您持续输出的重要工具

配置pytorch(gpu)分析环境

联想x250为什么这么贵_联想ThinkPad x250评测：当之无愧的高端商务超极本

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

Linux ubuntu系统安装以及深度学习环境安装

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程