摘要: 1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], 阅读全文
posted @ 2019-01-18 23:59 python我的最爱 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入,根据词频做一个数字的映射,max_feature表示的是最大的特征数 需要先使用 阅读全文
posted @ 2019-01-18 23:49 python我的最爱 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n 阅读全文
posted @ 2019-01-18 18:23 python我的最爱 阅读(1962) 评论(0) 推荐(0) 编辑
摘要: 问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 阅读全文
posted @ 2019-01-18 17:51 python我的最爱 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯要解决的问题: 正向概率: 假设一个袋子里面有红球4个,黑球6个,那么从袋子里抽出红球的概率 逆向概率,假设我们不知道袋子里面黑白求的比例,一连抽取一个或多个球,观察取出球的颜色,来判断取出红球的概率 例子1 : 假设一个学校有40%的女生, 60%的男生,女生50%穿长裤, 50%穿短裤,男 阅读全文
posted @ 2019-01-18 17:13 python我的最爱 阅读(367) 评论(0) 推荐(0) 编辑