2019 年 1月 18 日随笔档案 - python我的最爱

2019年1月18日

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

摘要： 1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], 阅读全文

posted @ 2019-01-18 23:59 python我的最爱阅读(532) 评论(0) 推荐(0) 编辑

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

摘要： 1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数需要先使用阅读全文

posted @ 2019-01-18 23:49 python我的最爱阅读(550) 评论(0) 推荐(0) 编辑

机器学习入门-贝叶斯垃圾邮件过滤(原理)

摘要：贝叶斯里面的参数原理最大似然：即最符合观测数据的最有优势，即p(D|h)最大奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率最大似然：当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的奥卡姆剃刀：如果平面上有N个点，我们使用n 阅读全文

posted @ 2019-01-18 18:23 python我的最爱阅读(1962) 评论(0) 推荐(0) 编辑

机器学习入门-贝叶斯拼写纠错实例

摘要：问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示： p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p（用户输入|实际想要输入）实阅读全文

posted @ 2019-01-18 17:51 python我的最爱阅读(543) 评论(0) 推荐(0) 编辑

机器学习入门-贝叶斯算法(原理)

摘要：贝叶斯要解决的问题：正向概率：假设一个袋子里面有红球4个，黑球6个，那么从袋子里抽出红球的概率逆向概率，假设我们不知道袋子里面黑白求的比例，一连抽取一个或多个球，观察取出球的颜色，来判断取出红球的概率例子1 ：假设一个学校有40%的女生， 60%的男生，女生50%穿长裤， 50%穿短裤，男阅读全文

posted @ 2019-01-18 17:13 python我的最爱阅读(367) 评论(0) 推荐(0) 编辑