4.3 小结

本章重点介绍自然语言处理的基础步骤——分词,鉴于中文分词和英文分词在分词原理及分词工具上的差异,分别结合实例向读者介绍了中文分词、英文分词的常用 Python 工具包,演示了一般的中英文分词步骤,对分词中常见的自定义词典、停用词处理等问题给出了相应的解决方案。按照书中的操作步骤,初学者可以很快的掌握并实现简单的分词过程。下面一起回顾一下本章的主要内容:

(1)中文分词工具包:jieba、Yaha、Genius、finalseg等

(2)英文分词工具包:NLTK

各工具包中常用的模块、函数、类方法等汇总表如下:

@todo 插入汇总表

(3)NLTK 语料库的下载及查看,包括提取固定搭配词组、查找使用情境(上下文)相近的词语、计数等

(4)亚马逊中国站中文评论文本、亚马逊美国站英文评论文本分词实例

results matching ""

    No results matching ""