4.5 练习

4.5.1 总结一个完整的中文分词过程应该包括哪些具体步骤

4.5.2 从公开数据源下载中文文本数据,运用 jieba 分词进行分词处理,必要情况下根据实际数据特征添加自定义词典、设置指定词语在词典中的词频等,最后根据分词结果进行简单的统计分析

4.5.3 对比 4.1 节给出的不同中文分词工具以及同一分词工具下不同分词函数的分词原理、特点,并用文本数据对比实际分词效果

4.5.4 利用网络爬虫技术自行抓取英文文本数据,利用 NLTK 提供的不同的分词函数进行分词处理,并进行停用词过滤、大小写转换等基本操作,总结一个完整的分词过程应该包括哪些具体步骤并按步骤执行

4.5.5 下载 NLTK 提供的语料库,并对 Text 文本进行计数、查询等操作

results matching ""

    No results matching ""