摘要: 读取文件 获取摘要ID 大小写转换 将标点符号与单词进行分离 除去停用词 除去标点符号 单词词干化 去除低频词 计算每个摘要中的词出现的次数 通过频率计算TF-IDF 训练lsi模型 建立索引 进行相似度计算 result For循环执行进度条 使用python的 parallel python(p 阅读全文
posted @ 2017-10-29 15:21 WangLC 阅读(280) 评论(0) 推荐(0) 编辑