中文文本分类数据集 | THUCNews数据集介绍及下载
作者:graviti
发布于 3/5/2021

一、THUCNews数据简介

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。发布方在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集发布方:清华大学自然语言处理与社会人文计算实验室

数据格式:文本

数据量:836.075K

数据集大小:1.46GB

高速下载THUCNews数据集:https://www.graviti.cn/open-datasets/THUCNews

相关论文:

  1. Scalable Term Selection for Text Categorization
  2. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization

二、THUCNews数据集下载

针对海外数据获取难、下载慢的问题,Graviti给出了一站式解决方案——将全球资源Host至国内镜像,无需VPN访问即可享受高速下载。

1、点击进入Graviti公开数据集-THUCNews数据集主页

2、点击「获取数据集」,将THUCNews数据集加入我的公开数据集

3、系统自动跳转到GAS控制台-TensorBay-公开数据集后,点击进入「THUCNews数据集」管理页面

4、下载THUCNews数据集

三、根据标注标签,在线筛选数据

使用Graviti可视化插件,实现在线可视化数据标注分布,所见即所得!

1、停留在刚才的TensorBay-GAS控制台,进入「标注详情」页,点击「数据列表」,根据标注标签筛选数据

2、进入「标注详情」页,点击「详情」-「可视化」,查看标注数据:数据标注、标签分布一览无余

四、THUCNews数据集的使用与管理

对于部分Graviti提供的标准格式的公开数据集,支持Fork公开数据集的功能。用户可将公开数据集获取至【我的数据集】,在线修改、使用数据;进行版本管理

具体步骤如下:

1、在TensorBay-GAS控制台-THUCNews数据集主页,点击「Fork」获取数据集

2、前往「我的数据集」,点击进入「THUCNews」数据集主页

3、进入「数据集详情」页,在Draft(草稿模式)下,可选择上传数据、发布数据集等基本功能,并享受版本管理、在线可视化、数据协同等服务,还通过开发者工具在线集成与云端使用数据

五、更多NLP相关数据集推荐

  1. Dialog bAbI Tasks
  2. curationCorpus
  3. THCHS-30
  4. 20 Newsgroups
  5. knowIT VQA
分享到:
Start Building AI Now