2019 年 1月 19 日随笔档案 - python我的最爱

2019年1月19日

摘要：无监督问题，我们手里没有标签聚类：相似的东西聚在一起难点：如何进行调参 K-means算法需要制定k值，用来获得到底有几个簇，即几种类型质心：均值，即向量各维取平均值距离的度量：欧式距离和余弦相似度优化目标： min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最阅读全文

posted @ 2019-01-19 12:27 python我的最爱阅读(461) 评论(0) 推荐(0) 编辑

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

摘要： 1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典， 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文

posted @ 2019-01-19 00:23 python我的最爱阅读(1515) 评论(0) 推荐(0) 编辑

机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)

摘要： 1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以第一步：进行语料库的读取第二步：进行分词操作第三步：载入停用词，同时对分词后的语料库进行停用词的去除第四步：选取一段文本分词列表，串接成字符串，使用jieba.analyse.extrac 阅读全文

posted @ 2019-01-19 00:09 python我的最爱阅读(5488) 评论(0) 推荐(0) 编辑