摘要: 无监督问题,我们手里没有标签 聚类:相似的东西聚在一起 难点:如何进行调参 K-means算法 需要制定k值,用来获得到底有几个簇,即几种类型 质心:均值,即向量各维取平均值 距离的度量: 欧式距离和余弦相似度 优化目标: min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最 阅读全文
posted @ 2019-01-19 12:27 python我的最爱 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文
posted @ 2019-01-19 00:23 python我的最爱 阅读(1503) 评论(0) 推荐(0) 编辑
摘要: 1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac 阅读全文
posted @ 2019-01-19 00:09 python我的最爱 阅读(5412) 评论(0) 推荐(0) 编辑