摘要:
贝叶斯定理 P(A|B)代表B发生的情况下,A发生的概率. P(B)代表B发生的概率. P(AB)代表AB同时发生的概率.P(B|A)代表A发生的情况下,B发生的概率。 显然有P(AB)=P(A|B)*P(B),P(AB)=P(B|A)*P(A)。从而P(B|A)=P(A|B)P(B)/P(A)。 阅读全文
摘要:
卷积神经网络,在图像识别和自然语言处理中有很大的作用,讲cnn的中文博客也不少,但是个人感觉说的脉络清晰清晰易懂的不多. 无意中看到这篇博客,写的很好,图文并茂.建议英文好的直接去看原文.英文不好的就直接看我这篇,算是读后总结吧.原文里对数学原理的着墨不多,在这篇文章里我会留着相关的标题,待日后慢慢 阅读全文
摘要:
逻辑回归 逻辑回归和线性回归其实有不少类似的地方,不同的是逻辑回归的$\hat y$是离散的.线性回归的$\hat y$是连续的. 逻辑回归:拟合样本数据发生的概率,根据概率进行分类处理. 逻辑回归,拟合样本发生的概率.$\hat p = f(x)$,之后根据概率的大小对样本做分类. 通常,将逻辑回 阅读全文
摘要:
假设我们要判断一个人是否得癌症,比如下图:红色得癌症,蓝色不得. 看一下上图,要把红色的点和蓝色的点分开,可以画出无数条直线.上图里黄色的分割更好还是绿色的分割更好呢?直觉上一看,就是绿色的线更好.对吧. 为啥呢?考虑下图,新来了一个黑色点,明显靠蓝色点更近,如果用黄线分割,却把它划分到了红色点这个 阅读全文
摘要:
梯度下降法/批量梯度下降法BGD 梯度下降法是一种基于搜索的最优化方法,即通过不断地搜索找到函数的最小值.并不是机器学习专属的方法.但是在机器学习算法中求解损失函数的最小值时很常用. 还记得之前说过的机器学习算法的普遍套路吗? 对有的损失函数来说,最小值是有着数学上的方程解的.但有的函数是不存在着数 阅读全文
摘要:
机器学习笔记 多项式回归这一篇中,我们讲到了如何构造新的特征,相当于对样本数据进行升维. 那么相应的,我们肯定有数据的降维.那么现在思考两个问题 为什么需要降维 为什么可以降维 第一个问题很好理解,假设我们用KNN训练一些样本数据,相比于有1W个特征的样本,肯定是训练有1K个特征的样本速度更快,因为 阅读全文
摘要:
在自然语言处理入门里我们提到了词向量的概念,tf-idf的概念,并且在实际的影评正负面预测项目中使用了tf-idf,取得了还算不错的效果.这一篇,我们来尝试一下使用来自google的大名鼎鼎的word2vec。 gensim是一个常用的python自然语言处理库.其中封装了c语言版本的word2ve 阅读全文
摘要:
上一篇机器学习笔记里,我们讲了线性回归.线性回归有一个前提:即我们假设数据是存在线性关系的. 然而,理想很丰满,现实很骨感,现实世界里的真实数据往往是非线性的. 比如你的数据分布,是符合y=0.5$x^2$ + x + 2的. 那你用y=ax+b去拟合,无论如何都没法取的很好的效果. 这时候,我们又 阅读全文
摘要:
海王是前段时间大热的影片,个人对这种动漫题材的电影并不是很感兴趣.然鹅,最近这部电影实在太热了,正好最近看自然语言处理的时候,无意间发现了word cloud这个生成词云的库,还蛮好玩的,那就抓抓这部电影的影评来试试吧. 爬虫抓取豆瓣海王影评 首先我们登陆豆瓣,进入海王的影评页面.然后打开影评的每一 阅读全文
摘要:
先从最简单的例子开始,假设我们有一组样本(如下图的一个个黑色的圆点),只有一个特征,如下图,横轴是特征值,纵轴是label。比如横轴是房屋面积,纵轴是房屋价格. 现在我们要做什么呢?我们试图找到一条直线y=ax+b,可以尽量好的拟合这些点. 你可能要问了,为啥是直线,不是曲线,不是折线?因为我们的前 阅读全文