上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 48 下一页
摘要: 1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文
posted @ 2019-01-19 00:23 python我的最爱 阅读(1515) 评论(0) 推荐(0) 编辑
摘要: 1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac 阅读全文
posted @ 2019-01-19 00:09 python我的最爱 阅读(5492) 评论(0) 推荐(0) 编辑
摘要: 1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], 阅读全文
posted @ 2019-01-18 23:59 python我的最爱 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入,根据词频做一个数字的映射,max_feature表示的是最大的特征数 需要先使用 阅读全文
posted @ 2019-01-18 23:49 python我的最爱 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n 阅读全文
posted @ 2019-01-18 18:23 python我的最爱 阅读(1962) 评论(0) 推荐(0) 编辑
摘要: 问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 阅读全文
posted @ 2019-01-18 17:51 python我的最爱 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯要解决的问题: 正向概率: 假设一个袋子里面有红球4个,黑球6个,那么从袋子里抽出红球的概率 逆向概率,假设我们不知道袋子里面黑白求的比例,一连抽取一个或多个球,观察取出球的颜色,来判断取出红球的概率 例子1 : 假设一个学校有40%的女生, 60%的男生,女生50%穿长裤, 50%穿短裤,男 阅读全文
posted @ 2019-01-18 17:13 python我的最爱 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 目的:为了让训练效果更好 bagging:是一种并行的算法,训练多个分类器,取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法,根据前一次的结果,进行加权来提高训练效果 stacking; 是一种堆叠算法,第一步使用多个算法求出结果,再将结果作为特征输入到下一 阅读全文
posted @ 2019-01-17 13:16 python我的最爱 阅读(4056) 评论(0) 推荐(0) 编辑
摘要: 根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性 阅读全文
posted @ 2019-01-17 10:31 python我的最爱 阅读(10210) 评论(0) 推荐(0) 编辑
摘要: 1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身, 第二个参数是传入的参数组合, cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索,比如参数为[1, 2, 3], [1, 2, 阅读全文
posted @ 2019-01-17 10:23 python我的最爱 阅读(1233) 评论(0) 推荐(0) 编辑
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 48 下一页