第 3 章 文本数据来源

俗话说,巧妇难为无米之炊,掌握了自然语言处理、文本数据分析的理论知识,会使用相关的分析工具,没有用于分析的文本数据对象也是无法开展文本数据分析的。概括来讲,文本数据来源有三个方面:一是从公开的文本数据库下载所需的文本数据,二是日常业务等留存在本地的文本资料,此外,就是根据实际分析需求从网络抓取文本数据,本章将从这三个方面出发,分别向读者介绍相应的文本数据获取资源及方式。 本章具体内容安排如下:3.1 节为读者列举了比较常用的公开文本数据库,均附有网址及简单说明;自有数据的说明放在 3.2 节;3.3 节重点介绍网络文本数据抓取相关内容,包括网络文本数据抓取的概念、原理、流程、实例等;最后,3.4 节讲解了如何在 Python 语言下读取所获得的文本数据以便进行后续的分析流程。

3.1 公开数据源

公开的文本数据资源很多,范围广泛内容丰富,可以满足不同的分析研究需求。下面列举一下较为常用的公开文本数据资源,其中大部分是可免费使用的。

3.1.1 nltk 提供的数据集

http://www.nltk.org/nltk_data/

作为世界知名的自然语言处理工具平台,NLTK(Natural Language Toolkit)不但打造了一系列可用的文本分析工具,也为其使用者提供了一份用于工具学习与文本数据分析的样例数据集,这其中不乏例如WordNet、布朗语意库(Brown Corpus)、路透社语料库(The Reuters-21578 benchmark corpus)、古腾堡项目电子文本档案节选(Project Gutenberg Selections)等近百份精品素材。另外,除了通过浏览网站下载,我们还可以在利用 NLTK 库中的 download 函数来直接下载这些语料素材,这为初学者学习文本数据分析提供了很大的便利。

3.1.2 20 Newsgroups 数据集

http://qwone.com/~jason/20Newsgroups/

20 Newsgroups 数据集整合了分别来自于20个不同网络新闻组的约20000个新闻组文档,并被广泛的应用于如今学界流行的机器学习文本聚类或分类研究中。除了通过浏览网站下载,我们还可以在 Python 中通过 sklearn 库直接导入这份数据集。

3.1.3 哈工大讯飞

http://hfl.iflytek.com/chinese-rc/

中文阅读理解语料集,其中内容包括人民日报与儿童童话

3.1.4 搜狗实验室

http://www.sogou.com/labs/

由搜狗团队组建的权威中文信息处理数据提供和评测平台,该平台对外免费共享了多项互联网语料与评测集合数据,分别对应有大小不同的版本,其中包含了2012年来自搜狐以及其他多家新闻站点的近20个栏目的分类新闻数据,同时我们也能在平台上下载到搜狗团队积累的互联网词库(2006年版本),用于提高在对中文互联网文本数据进行分析时的针对性。

3.1.5 数据堂

http://datatang.com/

通过获取线下大数据、行业大数据以及政府大数据,数据堂整合了涵盖科技、信用、交通、医疗、卫生、通信等数十大领域的大规模数据,为客户提供专业数据采集处理、共享交易及数据云服务。数据堂将所有数据分为语音识别、健康医疗、交通地理、电子商务、社交网络、图像识别、统计年鉴、研发数据共八个;类别,每个类别下都有文本格式数据,部分免费。

3.1.6 The Blog Authorship Corpus

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

The Blog Authorship Corpus 是一个英文博文语料库,包括 19320 名博主一个月内发布的所有博文,总计 681288 篇,超过一亿个英文词汇。每一篇博文都保存为独立的文件,至少涉及 200 个常用英文词汇,并提供相应博主的性别、年龄、职业等信息。

3.1.7 CLiPS

http://www.clips.uantwerpen.be/datasets

CLiPS (Computational Linguistics & Psycholinguistics) 是隶属于安特卫普大学语言学系的研究中心,前身是 CNTS 和 CPL 研究中心,其官方网站提供了 TwiSty Corpus、CSI corpus、Personae corpus 等语料数据集。

3.1.8 Lemur

http://lemurproject.org/

Lemur 项目致力于开发搜索引擎、浏览器工具栏、文本数据分析工具等来支持信息检索与文本挖掘软件的研究开发,该项目提供了两个文本数据集:ClueWeb09 和 ClueWeb12,ClueWeb09 数据集包含十亿网页,涉及十种语言;ClueWeb12 包含超过七亿的英文网页,是 ClueWeb09 进一步发展的结果。

3.1.9 Project Gutenberg

http://www.gutenberg.org/wiki/Main_Page

Gutenberg 提供了超过五万本免费电子书资源,支持在线阅读和下载。

3.1.10 Machine Comprehension Test (MCTest)

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

MCTest 包含 660 篇阅读理解文章,通常用于机器语意理解的研究,可以免费使用。

3.1.11 Saudi Newspapers Corpus

https://github.com/ParallelMazen/SaudiNewsNet

包含 31030 篇阿拉伯新闻报道,摘自多个在线沙特报刊。

3.1.12 NLPIR 语料库

http://www.nlpir.org/?action-category-catid-28

提供了较为丰富的中文语料资源,包括微博语料、中文新闻分类语料、中文情感挖掘语料等。

results matching ""

    No results matching ""