1.2 文本数据分析相关概念

虽然文本数据的分析流程与传统数据挖掘相似,但文本数据表现为非结构性、自由形态的文字,或者是由许多符合特定计算机语言的语法及语法规则构成的文字和语句的字符串,利用现有数据挖掘方法是无法直接进行分析的。抛开词频之外的复杂语义结构,挖掘过程首先要考虑将这种非结构化的数据结构化处理,常规做法就是分词、生成文本-词频矩阵,后续可能涉及到高维矩阵的处理等问题。所以,在进行复杂的文本数据分析之前,本节先对文本数据结构化处理会涉及到的概念及相关操作一一作简要说明,主要包括分词、构建“文档-词项”矩阵(Document- Term Matrix,DTM矩阵)、TF-IDF 、词向量等。

1.2.1 分词(Word Segmentation)

分词,是将由连续字符组成的语句按照一定规则划分成一个一个独立词语的过程。不同的语言有不同的句法结构和行文方式,在实际分析中,中文和英文分词是经常要处理的两种情况。在英文中,单词之间是以空格作为自然分界符的,所以英文文本属于词干化(word stemming),可以指定“空格(space)”符作为分词标记,而中文词没有形式上的分界符,只有字、句和段能通过明显的分界符来简单划界,所以中文比之英文要复杂的多、困难的多。如对中文表述“中文分词”和英文表述“Chinese Word Segmentation”进行分词,后者按照空格符直接提取词“Chinese”、“Word”及“Segmentation”即可,而前者则需指定更复杂的分词规则。自20世纪80年代以来,中文分词就成为研究热点,由于中文语言的复杂性也使之一直处于发展阶段。 本部分重点介绍中文分词相关内容。现有的分词算法可分为三大:基于规则的分词方法、基于统计的分词方法、基于字符串匹配的分词方法,基于字符串匹配的分词方法就是基于词典分词。 当前基于规则的分词方法都是基于人工标注的词性和统计特征对中文语料进行训练,得到对每一个字的类别标注,根据标注结果来进行分词,同时通过模型计算各种分词结果出现的概率,将概率最大的分词结果作为最终结果。 基于统计的分词关注的是文本本身的词项构成,其基本思想是字符串频数分析。分词过程可表述为:将文本中所有相邻汉字按照某一长度构成字符串(按照中文词构成规范,最小组合长度为两个汉字),遍历所有字符串组合并统计其出现的频数,字符串出现的频数越高表明其为固定搭配词的可能性越大,设定某一频数阈值,超过阈值时则将该字符串划分为固定搭配词,接着,再继续按照其他长度进行搜索。该方法优势在于无需与词典做比照,分词效率较高,且利用了上下文信息,缺点则是未充分利用常用词信息。 基于词典分词,是应用词典匹配、汉语词法或其它汉语语言知识进行分词的方法,使用的词典可以是庞大的统一化词典,或者是分行业的垂直词典,如中科院开发的汉语语法分析系统 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)、知网词库等,该方法简单、分词效率较高,设计和操作也较为简单,易于实现。基本分词原理是:文本输入后,依据一定策略将待分析的文本与词典进行词项匹配,匹配成功则提取该词。匹配策略又有不同的分类方法:按照扫描方向可分为正向匹配(从左至右)、逆向匹配(从右至左),正向匹配时,从若干汉字组合成的字符串开始搜索,若匹配则完成分词,若不匹配则划除字符串的最右一个汉字重新搜素,逆向匹配相反;按照匹配长度差异又可分为最大匹配、最小匹配,二者的基本区别在于不同长度字符串组合的搜索顺序,前者首先选取词典中最长的词长度为输入文本中字符串长度,判断是否匹配,再搜索次长字符串,直至完成全部匹配,而最小匹配法则相反,实际应用中主要使用最大匹配。常用的基于词典分词的方法主要有正向最大匹配、逆向最大匹配、全二分匹配及逐词遍历等。 在中文分词过程中,有两个颇具挑战性的问题,一是歧义词识别,二是未登陆词识别。

1.2.1.1 歧义词

一般当一个字可以同时作为两个词的组成部分,并且这两个词按序同时出现在一个语句中时,就可能会出现歧义的现象。目前的歧义一般分为三种:交叉歧义,组合歧义,真歧义。

(1)交叉歧义:语句 ABC 中,AB 和 BC 都能组成汉语词汇,就会造成交叉歧义,如“产品质量”一句中,“产品”、“品质”、“质量”都可以构成常用汉语词汇,属于交叉型歧义片段。 (2)组合歧义:如果两个词汇 A、B 既可以单独成词又可以组合在一起以 AB 的形式成词的话,在分词时两个词汇同时连续出现就会导致组合歧义的问题。如“以我个人的名义”和“我一个人在家”,前者是“个人”是一个词,后者是“个”、“人”是两个词。 (3)真歧义:如果一句话有多重切分方式,那么就会导致真歧义的问题。如“乒乓球拍卖完了”,切分胃“乒乓球拍/卖/完了”和“乒乓球/拍卖/完了”都是合理的。

1.2.1.2 未登陆词

未登录词指在分词词典中没有收录但是已被公认为词语的词汇,也可以称之为新词。最典型的未登录词的例子就是人名,此外,未登陆词的一个重要来源就是互联网,人们在网络交流过程中会创造很多新鲜词汇,如“神马”、“细思极恐”等等,这些都给分词任务带来了很大的困难。

1.2.2 停用词(Stop Words)

停用词指在文本中不影响文本主要意思表达的“无用”内容,通常为在人类自然语言中常见且无具体意义的助词、虚词、代词,如英文词“I”、“this”以及中文词“的”、“啊”等,停用词的存在直接增加了文本数据的特征维度,提高了文本数据分析过程中的成本,若直接以包含大量停用词的文本为分析对象,还可能会导致数据分析的结果存在较大偏差。因此,停用词去除也是文本数据分析中的重要一环,常用的方法有词表匹配法、词频阈值法、权重阈值法等。

1.2.3 “文档-词项”矩阵(DTM矩阵)

DTM 矩阵即为文本数据的信息阵,是以文档为样本、各文档分词得到的词汇项并集为变量集合、词频为变量观测值的矩阵。分词后得到 DTM 矩阵就初步实现了对文本数据的结构化处理。由N个词汇项 @todo 带下标公式 构成的包含M个文档 @todo 带下标公式 的文档集合 D,其 DTM 矩阵为: @todo DTM 矩阵表格 其中, @todo 带下标公式 为第j个词项在第i个文档中出现的频数。

1.2.4 词频-逆向文档频率(Term Frequency–Inverse Document Frequency,简称 TF-IDF)

文档集由若干文档组成,文档又由若干词汇组成,词汇的重要性随着它在文档中出现的次数成正比,但同时会随着它在文档集中出现的频率成反比,也就是说一个词汇如果在所有的文档中都频繁出现,在某种程度上意味着这个词不能很好地表示文本的特征,如一些没有实际意义的停用词。为了降低这样的词汇对文本数据分析的影响,需要降低这些词汇 DTM 矩阵的系数,也就是需要进行词频矩阵的核心信息提取,使得词汇能突出所属文档的个性化,对单独文档而言,又能够体现相对重要性,从而方便后续分类、检索、提取规律等。 “词频-逆向文件频率”是 Salton 等提出的最为常用的提取核心信息的统计方法。基本思想是:若词项 @todo 带下标公式 在文本 @todo 带下标公式 中出现的频率高,且在其他文本中出现频率低,则认为该词具有良好的文本特征表示能力,赋予其较高的权重。其本质上是按照逆文本频率 idf 对词频加权,一定程度上体现了文档集合中各文档的区别,将词频的绝对多少转化为相对多少,最终特征空间由加权后的词频即 tf*idf 值构成。 TF-IDF方法在一定程度上解决了停用词和常用词被划归为关键特征的问题,更能区分词项对于文档的重要程度,从而准确表达文档特征。其优点在于原理直观、易解释;计算较简单、效率高。作为重要的文本特征表示方法,目前TF-IDF在语义识别、文本聚类、文本分类、信息检索、推荐系统中都有广泛应用。 TF-IDF的计算流程科参见1.5节深度阅读材料1.5.1。

1.2.5 词向量(Distributed Representation)

要将自然语言理解的问题要转化为机器学习的问题,首先要找一种方法把文字符号数学化。所谓词向量,直观来讲就是将自然语言中的词汇用数值向量进行表示的方式,其发展过程经历了从 one-hot representation 到 distributed representation 的过程。one-hot representation 是指用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0,1 的位置对应该词在词典中的位置。one-hot representation 是 NLP 中最直观,也是到目前为止最常用的词表示方法,但该种表达方式存在两个缺点:一是容易受维数灾难的困扰,特别是将其用于 Deep Learning 的一些算法时;二是不能很好地刻画词与词之间的相似性。为了克服 one-hot representation 的不足,Hinton 于 1986 年提出了 Distributed Representation 方法。该方法通过训练(常用神经网络的方法)将某种语言中的每一个词映射成一个固定长度的短向量(相对于one-hot representation的“长”而言,维度以50维和100维比较常见),我们将这样的向量称为词向量。将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,可以用最传统的欧氏距离来衡量,也可以用cos夹角来衡量,就可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性,所以说词向量可以提取词与词之间的深层语义关系。关于词向量的发展历程以及训练模型的构建可以参见深度阅读材料 1.5.2 提供的几篇论文。

1.2.6 词性标注(Part-of-speech Tagging,POS)

所谓词性,就是对词语的一种分类方式。现代中文词汇大致可以分为名词、动词、形容词、数词、量词、代词、介词、副词、连词、感叹词、助词和拟声词等12种,英文词汇基本分类包括名词、形容词、动词、代词、数词、副词、介词、连词、冠词和感叹词等10种。词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 词性标注是给句子中每个词一个词性类别的任务,属于自然语言处理中的基本操作,是信息检索等领域不可或缺的步骤。如“我喜欢音乐”中,“我”为人称代词(r),“喜欢”为动词(v),“音乐”为名词(n)。具有两个或两个以上词性的词,即兼类词的存在是词性标注的难点。目前,针对兼类词的歧义排除,比较经典的算法可以归纳为以下三类:基于规则的算法、基于概率统计模型的算法、规则和统计相结合的算法。

1.2.7 命名实体识别(Named Entity Recognition)

命名实体识别指识别文本中具有特定意义的实体,如人名、机构名、地名等专有名词和有意义的时间等,是信息检索、问答系统等技术的基础任务。如在“小明在夏威夷度假。”中,命名实体有:“小明——人名”、“夏威夷——地名”。

@todo:此处需"命名实体"配图 1.2.7

相对于英文,中文命名实体没有明显的形式标志,还存在分词的干扰,导致中文命名实体识别难度也高于英文。目前,命名实体识别的方法有基于规则的方法、基于统计的方法及混合方法。

1.2.8 句法分析(Dependency Parsing,DP)

句法分析,指根据给定的语法体系下分析句子的句法结构,划分句子中词语的语法功能,并判断词语之间的句法关系。短语结构和依存结构是目前句法分析研究中应用最广泛的两类语法体系,不同语法在句法分析的过程中采用的分析算法差别不大,算法的发展经历了从基于规则算法到基于统计算法的过程。如“我喜欢音乐”一句中,“我”为主语,“喜欢”为谓语,“音乐”为宾语;“我”和“喜欢”为主谓关系(SBV),“喜欢”和“音乐”为动宾关系(VOB)。

@todo:此处需"句法结构"配图 1.2.8

1.2.9 情感分析(Sentiment Analysis)

所谓情感分析,也可以称为意见挖掘(Opinion Mining),是通过计算机语言技术、自然语言处理方法整理和分析相关的文本数据,对主观情感性文本进行分析和推理的过程,是一个分析人们书面语言情绪、情感或态度的领域。按照应用领域的不同,可以分为褒贬情感倾向分类、主观性内容识别和在线评论经济价值挖掘等几个方面;按照文本类型的不同,可以分为产品评论的情感分析、新闻评论的情感分析等;按照分析粒度的不同,可以分为篇章级、词语级、语句级三个不同粒度层次的情感分析。综合国内外的研究成果,从技术方法来看,有两类方向:一类是基于语义分析,另一类是基于机器学习。

@todo 其他自然语言处理相关

results matching ""

    No results matching ""