4.4 深入阅读材料

4.4.1 本章介绍的分词工具在 github 都有比较详细的说明,在此统一列出各项目主页地址方便读者查阅:

(1)jieba 分词:https://github.com/fxsjy/jieba

(2)Yaha 分词:https://github.com/jannson/yaha

(3)Genius 分词:https://github.com/duanhongyi/genius

(4)finalseg 分词:https://github.com/fxsjy/finalseg

(5)scseg 分词:https://github.com/duanhongyi/scseg

(6)pynlpir 分词:https://github.com/tsroten/pynlpir

(7)smallseg 分词:https://github.com/wangjun/smallseg

(8)snailseg 分词:https://github.com/Abioy/snailseg

4.4.2 《Natural Language Processing with Python》一书对于 MLTK 有着较为基础、详尽的介绍,对于想进一步了解 NLTK 的读者是不错的学习资料,官方网页版书籍地址:http://www.nltk.org/book/

4.4.3 NLTK 相关包、模块文档网址:

(1)tokenize 包文档:http://www.nltk.org/api/nltk.tokenize.html

(2)stem 包文档:http://www.nltk.org/api/nltk.stem.html

(3)text 模块文档:http://www.nltk.org/api/nltk.html#module-nltk.text

(4)tag 包文档:http://www.nltk.org/api/nltk.tag.html

4.4.4 在关于自然语言处理的书籍中,都会将词性标注单列一章重点讲解,对此有兴趣的读者可参考《自然语言处理综论》第一版第8章或《统计自然语言处理基础》第10章

4.4.5 关于Brwon语料库标记集的详细信息可参考:http://www.comp.leeds.ac.uk/amalgam/tagsets/brown.html

4.4.6 关于计算所汉语词性标记集的详细信息可参考:http://www.ictclas.org/ictclas_docs_003.html

results matching ""

    No results matching ""