admin管理员组文章数量:1130349
引言
Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv/pdf/1408.6988.pdf
基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candidate pairs进行特征提取,最终用LTR的方式进行排序。
数据集
数据集是从新浪微博爬取的微博及其下的评论构成(p, r)这样的pairs,选区的是一些中国搞NLP的高级知识分子的微博,相对来说posts的质量较高。
Sampling Strategy
确定10个在sina微博上活跃的NLP大牛,然后爬他们的followee,得到3200多个NLPer/MLer作为种子。
之后基于上述种子爬了两个月,抓取他们的微博及相关评论。统计出来数据的topic主要为:Research、General Arts and Science、IT Technology、Life等
Processing, Filtering, and Data Cleaning
接下来对数据进行清洗,主要有以下几个策略:
1、去除post小于10个字符,及response小于5个字符的,还有一些万金油式的" Wow"或者“Nice”之类的语句。
2、只保留每个post前100
引言
Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv/pdf/1408.6988.pdf
基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candidate pairs进行特征提取,最终用LTR的方式进行排序。
数据集
数据集是从新浪微博爬取的微博及其下的评论构成(p, r)这样的pairs,选区的是一些中国搞NLP的高级知识分子的微博,相对来说posts的质量较高。
Sampling Strategy
确定10个在sina微博上活跃的NLP大牛,然后爬他们的followee,得到3200多个NLPer/MLer作为种子。
之后基于上述种子爬了两个月,抓取他们的微博及相关评论。统计出来数据的topic主要为:Research、General Arts and Science、IT Technology、Life等
Processing, Filtering, and Data Cleaning
接下来对数据进行清洗,主要有以下几个策略:
1、去除post小于10个字符,及response小于5个字符的,还有一些万金油式的" Wow"或者“Nice”之类的语句。
2、只保留每个post前100
本文标签: ApproachRetrievalinformationConversationtext
版权声明:本文标题:An Information Retrieval Approach to Short Text Conversation 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://it.en369.cn/jiaocheng/1754604682a2707597.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。


发表评论