2017年5月10日
摘要: 有时候用Pandas输入的数据小数点后的位数太多,我们希望能够在显示的时候保留一定的位数而不把它全部显示出来,这时候就可以用pd.set_option()的方法来进行显示设置: 需要注意的是,如果用文件导入(如pd.read_csv函数)DataFrame数据,必须保证导入的数据是纯数字而不含字符串 阅读全文
posted @ 2017-05-10 10:57 littlemining 阅读(156) 评论(0) 推荐(0) 编辑
  2017年1月11日
摘要: from gensim import corpora, models corpus只截取了一部分 lsi = models.LsiModel(corpus_tfidf, num_topics=2, id2word=dic) 将文本的tfidf向量输入生成Lsi模型,num_topics为生成主题个数 阅读全文
posted @ 2017-01-11 10:18 littlemining 阅读(4126) 评论(0) 推荐(0) 编辑
  2017年1月7日
摘要: GMM计算更新∑k时,转置符号T应该放在倒数第二项(这样计算出来结果才是一个协方差矩阵) from sklearn.mixture import GMM GMM中score_samples函数第一列是对数似然(负数,需要加负号变正),越小代表越好。(其他列不明白什么意思),验证score函数也输出对 阅读全文
posted @ 2017-01-07 17:29 littlemining 阅读(1633) 评论(0) 推荐(0) 编辑
  2017年1月4日
摘要: 生成数据集方法:sklearn.datasets.make_blobs(n_samples,n_featurs,centers)可以生成数据集,n_samples表示个数,n_features表示特征个数,centers表示y的种类数 y3 = np.array([0]*100 + [1]*50 + 阅读全文
posted @ 2017-01-04 11:36 littlemining 阅读(851) 评论(0) 推荐(0) 编辑
  2016年12月27日
摘要: sklearn包对于SVM可输出支持向量,以及其系数和数目: print '支持向量的数目: ', clf.n_support_ print '支持向量的系数: ', clf.dual_coef_ print '支持向量:', clf.support_ 处理不平衡数据常用方法:将少数类的数据权值加重 阅读全文
posted @ 2016-12-27 22:21 littlemining 阅读(370) 评论(0) 推荐(0) 编辑