第1章 文本数据分析

完成一个完整的文本数据分析而过程,要求满足以下几个要素条件:一是明确的待分析的文本数据,二是要掌握自然语言处理、文本数据分析相关理论知识,三是要会使用分析工具进行实现。在在进行复杂的文本数据分析之前,本章将重点向读者介绍自然语言处理、文本数据分析相关理论知识,包括文本数据分析的相关思想、概念,文本数据分析的意义,以及常用的文本数据分析工具等,这些概念以及工具在后续章节都会有所涉及,在此一并明晰,后续不多做说明。 本章的目的在于:界定后续章节将涉及的相关概念,统一介绍本书用到的分析工具。通过阅读本章,文本数据分析的初学者将对文本数据分析有更加清晰的认识,对相关的分析流程及工具有系统的认知,同时本章也将为读者后续章节的阅读、理解奠定基础。 本章具体内容安排如下:1.1节首先介绍什么是文本数据及文本数据的特点,文本数据分析的含义、基本内容,通过列举文本数据分析在不同领域的应用,来展示文本数据分析的价值所在,最后描述了文本数据分析在未来一段时间内的发展趋势;1.2节重点说明文本数据分析过程中涉及的相关操作,包括分词、词性标注、命名实体识别、句法分析、词向量等,为后续章节的学习构建基础;最后,1.3节将一一介绍常用的文本数据分析工具,包括分析环境、常用自然语言处理工具、科学计算库、机器学习库、词典资源等等。

1.1 什么是文本数据分析

1.1.1 文本数据

直观来讲,“文本”(text)即文字、话语,是语言的书面表现形式,可以是句子、段落或者篇章等,其存储方式和常见的数字不同。一般根据存储方式的不同,可以将数据划分为结构化数据、非结构化数据和半结构化数据。所谓结构化数据,指的就是可以用二维表组织、分析处理过程较为简单的信息,可以将这种结构化的二维表组织方式理解为一个文件夹,文件夹里的每一个文件都被明确标记并很容易被识别,数字、符号等属于结构化数据;与结构化数据相对的即为非结构化数据,非结构化数据是多种信息的无结构混合,通常无法直接知道其内部结构,只有经过识别、有条理的存储分析后才能体现其价值,图片、声音、视频等属于非结构化数据,理想条件下,所有的非结构化数据都可以结构化处理,但是实际上,有些类型的非结构化数据很难结构化处理,比如不包含结构化字段的纯文本(如文章摘要)就很难切分和分类;介于结构化数据和非结构化数据两者之间的数据称为半结构数据,大多数文本,既包含标题、作者、分类等结构字段,又包含非结构化的文字内容,这类文本均属于半结构化数据,即半结构化文本数据。

1.1.2 文本数据特点

1.1.2.1 半结构化

正如上文 1.1.1 所提到的,大多数文本数据属于半结构化数据,例如一篇我们常见的网络新闻,其标题、作者、分类、来源等信息通常都会以某种特定的格式标注出来,这样的信息可以称为是结构化内容,而新闻的主体部分譬如摘要和正文等则是由连续的文字与标点组成的纯粹文本,即非结构化内容。用于处理大量数据的计算机并非人类,本身并不具备解读非结构化自然语言的能力,因此,文本数据半结构化的特点阻碍了传统数据分析方法对其的直接应用,对于文本数据的结构化处理的有关方法以及文本数据的表示形式也成为近年来学界关注的一大焦点。

1.1.2.2 数据量大

一般的文本库至少包含数千个文本样本,此外,随着网络信息技术的飞速发展,数据获取、传输、存储的速度大幅增长,人们越来越多的依赖网络进行信息沟通,比如在网上发表意见、讨论问题、交流情感等,使得文本数据呈现出高速膨胀的态势。鉴于文本数据基数大与高增长的特征,需要采用特殊的方法对这些数据进行分析处理以提高分析效率。

1.1.2.3 高维稀疏性

一般文本数据结构化处理后得到的文本向量都会面临维度过高和稀疏的问题,维数一般都高达数千甚至上万维,如果不进行处理,则会导致文本挖掘算法计算量大,资源消耗高,同时严重影响相关挖掘算法的准确性,所以有必要进行特征筛选等降维处理。

1.1.2.4 蕴含语义、情感

文本是语言的书面表现形式,其内在蕴含了不同语言环境下复杂的语义关系,如一词多义、起承转合、时间关系等。此外,文本内容由特定的人编写,因此,除传递所表达的基本信息外,不可避免地会隐含着表述者的态度或情感等。

1.1.3文本数据分析

1.1.3.1 文本数据分析含义

Seth Grimes 曾指出“ 80% 的商业信息来自非结构化数据,主要是文本数据”,这一表述可能夸大了文本数据在商业数据中的占比,但是文本数据的蕴含的信息价值毋庸置疑。文本数据数据量大的特点,使得人工信息处理变得效率低下,必须借助计算机来完成相关工作,但是文本数据蕴含着复杂的语义关系和情感倾向,计算机无法直接识别、处理,所以需要将文本数据进行相应的转化处理。从狭义的角度来讲,将文本数据转化为计算机可以识别处理的结构化数据的科学抽象过程即为文本数据分析过程,其首要目标就是利用自然语言处理和分析方法将“文本”转换为“数据”,具体会涉及到词频分布研究、模式识别、关联分析、信息提取、可视化和预测分析等等,通过文本数据分析,可以初步推断文本的主要含义和文本提供者的意图。从广义的角度来讲,文本数据分析既涵盖前文提到的文本数据结构化的前置处理,又囊括抽取文本数据蕴含的深层次、高质量信息等进一步的研究内容,即文本数据挖掘(text data mining),也常被表述为文本挖掘(text mining),传统的文本数据挖掘包括文本分类、文本聚类、命名实体识别、情感分析、建立实体关系模型等。本书内容从广义文本数据分析出发,除介绍文本数据结构化处理外,也涉及文本聚类、命名实体识别等文本挖掘内容。

1.1.3.2 文本数据分析基本内容

(1)获取文本数据:即获取文本数据分析的对象,属于文本数据分析的准备阶段,可以从公开数据源下载,或者利用自有数据集,或者按照分析需求从网络抓取。 (2)自然语言处理:虽然一些文本数据分析会涉及到较高级的统计方法,但是部分分析还是会更多的涉及到自然语言处理过程,如分词、词性标注、句法分析等。 (3)命名实体识别:即利用词典或统计方法识别命名的文本特征,如:人名、地名、组织机构、特定的缩写等。 (4)模式识别:文本中可能会出现像电话号码、邮箱地址这样的有正规表示方式的实体,通过这些特殊的表示方式或者其他模式来识别这些实体的过程就是模式识别。 (5)关系识别:识别代指同一对象的不同词汇。 (6)文本聚类:即运用无监督机器学习手段归类文本,适用于海量文本数据的分析,在发现文本话题、筛选异常文本资料方面应用广泛 (7)文本分类:即在给定分类体系下,根据文本特征构建有监督机器学习模型,达到识别文本类型或内容主旨的目的 (8)文本关联:传统关联规则挖掘方法在文本特征上的直接应用,包含文档类型关联、词汇关联、实体关联等内容。 (9)情感分析:包括识别文本隐含的主观内容、挖掘不同形态的观点信息,如:情绪、情感、语气、观点等,目前的文本数据分析技术可以细化到实体、概念、话题等级的情感分析。 (10)定量文本分析:人为或者通过机器学习来挖掘词汇间的语义、语法关系,进而识别一段文本的含义、文体。

1.1.3.3 文本数据分析的价值

文本数据分析涵盖诸多的研究方向,而这些研究方向又可以被应用于不同的领域,下面从不同的应用领域出发,分别介绍文本数据分析技术在各个领域发挥重要的作用。

在商业实践中,通过分析客户和竞争对手相关文本数据可以提高企业自身竞争力。客户分析方面,企业可以从客户关系数据、社交媒体、电子商务平台等渠道获取相关文本数据,通过自然语言处理和相关分析揭示隐含在文本背后的商业信息,进而进行产品分析、客户关系管理、客户流失预测、企业的风险和机会分析,总结产品优缺点、把握客户情感和需求、了解舆论导向,为商业决策、行业趋势研究等提供有力支持。比如,了解未购买产品的客户对该种产品的情感是正面还是负面,可以在一定程度上判断要说服这名客户购买该产品的难易程度;通过分析电影预告片评论来预测电影受欢迎程度,进而迅速地调整推广策略;首次发布的产品,针对开始出现的投诉进行文本数据分析,可以快速识别出产品存在的问题,以便更快、更积极地避免未来产品中出现同样的问题;分析竞争对手产品信息及评价,可以及时了解市场需求和走势,知己知彼。

在欺诈识别中,比如健康险投诉事件,使用文本数据分析技术可以解析出客户的评论和理由,进而识别出欺诈模式,标记出风险的高低,将更多的资源投入高风险的投诉中。

信息检索里的许多任务都可以归结为文本分类问题,包括搜索引擎对网页的相关性排序、垃圾邮件的过滤、文档的组织等,网页检索方面也越来越多地引入信息检索和文本分类的技术,以更好地理解用户的搜索需求,提供给更优的信息处理服务。

在安全监控领域,很多文本数据分析软件包都被设计用于监测和分析在纯文本数据,比如互联网新闻、博客等等,当中也会涉及到情感分析、文本加密或解密技术等。将这些技术用于追踪跨境的有组织犯罪,可以提高在跨境执法方面组织效率;用于分析罪犯(或嫌疑犯)的真实供述,可以研发出预测模型以区分谎言和实话,与测谎仪等其他测谎技术相比,避免了过多的中介物的干扰;用于监控情感信息,可以识别消极情感信息的突然增加。

除此之外,文本数据挖掘也被用于生物医学、化学、金融市场、社会科学等研究中。

1.1.3.4 文本数据分析的发展趋势

上文已经提到,文本数据分析应用领域非常广泛,在各个领域的发展程度势必存在一定差异,但总体上仍然存在较大的发展空间,可以是技术上的创新,也可以是应用领域的拓展,综合来讲,文本数据分析在未来短时间内有以下发展趋势: (1)信息提取 大数据环境下,信息密度低是一个共性问题,如何在海量的文本数据中过滤掉无用信息并快速提取所需的要素一直以来都一个研究热点,目前虽然在文本数据结构化处理方面已经取得了一定的进展,但是信息要素的提取仍然是一个研究热点和难点。

(2)多语言分析 一般情况下,文本数据分析研究多围绕一种语言展开,其中针对英文的研究更加完善,但是随着机器翻译和机器学习等技术的不断发展,不同语言之间的差异已经逐渐得到弥补,为文本数据分析在多种语言上的发展提供了支持。 (3)情感分析 “情感引导决策”的理念长期深入人心,关于文本情感的研究一直是大家关注的热点,但是近期关于情感分析更加广泛、系统的研究热潮仍然超出了正常预期。除从文本数据中提取情感状态外,将情感倾向量化处理将是近期的研究热点,在广告商、新闻传媒、市场营销、代理机构等应用领域的发展也将更加成熟。 (4)表情符号分析 随着网络信息技术的飞速发展,人们越来越多的依赖网络进行信息沟通,而在网上发表意见、讨论问题、交流情感的过程中又会利用许多表情符号来直观的表达个人情感,如果能对表情符号进行识别、划分,将得到更加有价值的情感信息,目前已经有一部分学者开启了这方面的研究,未来的研究成果也是十分值得期待的。 (5)自然语言生成 所谓自然语言生成(natural language generation ,NLG ),指机器通过上下文、事先设定的规则等形成算法进而生成文本内容,如邮件、即时信息、翻译等,适用于生成大量的、重复度高的内容,如体育、天气预报相关的内容,在人机对话方面(如智能机器人)也是一个研究热点。

results matching ""

    No results matching ""