5.7 练习

5.7.1 叙述词袋模型的思想。

5.7.2 对比词项-文档矩阵、词频-逆向文档频率矩阵、词向量三种文本数据结构化方式的原理差异及优缺点。

5.7.3 从 20 Newsgroups 数据库下载 'alt.atheism' 类新闻数据

(1)利用 scikit-learn 库 feature_extraction.text 模块相关类方法构建文档-词项矩阵,尝试不同参数设置,对比输出结果的差异。

(2)叙述 scikit-learn 库词频-逆向文档频率的计算原理,分别利用 TfidfTransformer 类和 TfidfTransformer 类为 'alt.atheism' 类新闻数据构建 TF-TDF 矩阵。

(3)训练词向量模型,领用词向量训练结果计算不同词汇之间的相似性。

5.7.4 将不同文档的词频统计结果列表 [{'a': 1, 'b': 3}, {'b': 2, 'c': 1}] 转化为常见 DTM 形式,即行表示文档、列表示词汇的矩阵形式,并对结果进行逆转换。

5.7.5 载入 NLTK 提供的 brown 语料

(1)利用 gensim 库相关类方法构建文档词项矩阵。

(2)叙述 gensim 库词频-逆向文档频率的计算原理,利用 gensim 库相关类方法构建 TF-IDF 矩阵,尝试不同的参数设置对比结果差异。

results matching ""

    No results matching ""