python我的最爱

2019年1月19日

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

摘要： 1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典， 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文

posted @ 2019-01-19 00:23 python我的最爱阅读(1575) 评论(0) 推荐(0)

机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)

摘要： 1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以第一步：进行语料库的读取第二步：进行分词操作第三步：载入停用词，同时对分词后的语料库进行停用词的去除第四步：选取一段文本分词列表，串接成字符串，使用jieba.analyse.extrac 阅读全文

posted @ 2019-01-19 00:09 python我的最爱阅读(5664) 评论(0) 推荐(0)

2019年1月18日

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

摘要： 1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], 阅读全文

posted @ 2019-01-18 23:59 python我的最爱阅读(571) 评论(0) 推荐(0)

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

摘要： 1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数需要先使用阅读全文

posted @ 2019-01-18 23:49 python我的最爱阅读(576) 评论(0) 推荐(0)

机器学习入门-贝叶斯垃圾邮件过滤(原理)

摘要：贝叶斯里面的参数原理最大似然：即最符合观测数据的最有优势，即p(D|h)最大奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率最大似然：当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的奥卡姆剃刀：如果平面上有N个点，我们使用n 阅读全文

posted @ 2019-01-18 18:23 python我的最爱阅读(2047) 评论(0) 推荐(0)

机器学习入门-贝叶斯拼写纠错实例

摘要：问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示： p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p（用户输入|实际想要输入）实阅读全文

posted @ 2019-01-18 17:51 python我的最爱阅读(587) 评论(0) 推荐(0)

机器学习入门-贝叶斯算法(原理)

摘要：贝叶斯要解决的问题：正向概率：假设一个袋子里面有红球4个，黑球6个，那么从袋子里抽出红球的概率逆向概率，假设我们不知道袋子里面黑白求的比例，一连抽取一个或多个球，观察取出球的颜色，来判断取出红球的概率例子1 ：假设一个学校有40%的女生， 60%的男生，女生50%穿长裤， 50%穿短裤，男阅读全文

posted @ 2019-01-18 17:13 python我的最爱阅读(387) 评论(0) 推荐(0)

2019年1月17日

机器学习入门-集成算法(bagging, boosting, stacking)

摘要：目的：为了让训练效果更好 bagging：是一种并行的算法，训练多个分类器，取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法，根据前一次的结果，进行加权来提高训练效果 stacking; 是一种堆叠算法，第一步使用多个算法求出结果，再将结果作为特征输入到下一阅读全文

posted @ 2019-01-17 13:16 python我的最爱阅读(4136) 评论(0) 推荐(0)

机器学习入门-显示特征重要性的排序

摘要：根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性阅读全文

posted @ 2019-01-17 10:31 python我的最爱阅读(10402) 评论(0) 推荐(0)

机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)

摘要： 1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身，第二个参数是传入的参数组合， cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索，比如参数为[1, 2, 3], [1, 2, 阅读全文

posted @ 2019-01-17 10:23 python我的最爱阅读(1281) 评论(0) 推荐(0)