littlemining - 博客园

2017年5月10日

摘要：有时候用Pandas输入的数据小数点后的位数太多，我们希望能够在显示的时候保留一定的位数而不把它全部显示出来，这时候就可以用pd.set_option()的方法来进行显示设置：需要注意的是，如果用文件导入（如pd.read_csv函数）DataFrame数据，必须保证导入的数据是纯数字而不含字符串阅读全文

posted @ 2017-05-10 10:57 littlemining 阅读(174) 评论(0) 推荐(0)

2017年1月11日

机器学习之sklearn——主题模型

摘要： from gensim import corpora, models corpus只截取了一部分 lsi = models.LsiModel(corpus_tfidf, num_topics=2, id2word=dic) 将文本的tfidf向量输入生成Lsi模型，num_topics为生成主题个数阅读全文

posted @ 2017-01-11 10:18 littlemining 阅读(4190) 评论(0) 推荐(0)

2017年1月7日

机器学习之sklearn——EM

摘要： GMM计算更新∑k时，转置符号T应该放在倒数第二项（这样计算出来结果才是一个协方差矩阵） from sklearn.mixture import GMM GMM中score_samples函数第一列是对数似然（负数，需要加负号变正），越小代表越好。（其他列不明白什么意思），验证score函数也输出对阅读全文

posted @ 2017-01-07 17:29 littlemining 阅读(1659) 评论(0) 推荐(0)

2017年1月4日

机器学习之sklearn——聚类

摘要：生成数据集方法：sklearn.datasets.make_blobs(n_samples,n_featurs,centers)可以生成数据集,n_samples表示个数，n_features表示特征个数，centers表示y的种类数 y3 = np.array([0]*100 + [1]*50 + 阅读全文

posted @ 2017-01-04 11:36 littlemining 阅读(887) 评论(0) 推荐(0)

2016年12月27日

机器学习之sklearn——SVM

摘要： sklearn包对于SVM可输出支持向量，以及其系数和数目： print '支持向量的数目: ', clf.n_support_ print '支持向量的系数: ', clf.dual_coef_ print '支持向量:', clf.support_ 处理不平衡数据常用方法：将少数类的数据权值加重阅读全文

posted @ 2016-12-27 22:21 littlemining 阅读(400) 评论(0) 推荐(0)