摘要: 目的 将gensim输出的格式转化为numpy array格式,支持作为scikit learn,tensorflow的输入 实施 使用nltk库的停用词和网上收集的资料整合成一份新的停用词表,用来过滤文档中的停用词,也去除了数字和特殊的标点符号,最后将所有字母转化为小写形式。 以下是原文: Sub 阅读全文
posted @ 2018-03-20 14:02 yihailin 阅读(1248) 评论(0) 推荐(0) 编辑