摘要: 考虑用机器学习建立一个邮件过滤系统,来将邮件分成垃圾邮件和非垃圾邮件。首先我们建立一个词典,里面包含了邮件中所有的不重复单词。我们用长度为词典中单词数目的特征向量来表示一封邮件。如下所示:表示一封邮件,如果该邮件包含有词典中的第i个单词,那么,否则.为了建模,作一个很强的假设,假设词典中的每个单词是... 阅读全文
posted @ 2014-10-07 23:41 90Zeng 阅读(2770) 评论(0) 推荐(0) 编辑
摘要: 考虑一个分类问题:根据一个动物的特征来区分该动物是大象(y=1)还是狗(y = 0).利用逻辑回归找到一条直线,即分界线,将训练集中的大象和狗分开,当给定一个新的动物特征时,检查该动物位于分界线的哪一边,然后做出判断是大象,还是狗,就是对p(y|x;θ)进行建模。这里我们来看另一种不同的思路,首先根... 阅读全文
posted @ 2014-10-07 21:48 90Zeng 阅读(3520) 评论(6) 推荐(0) 编辑
摘要: 考虑一个多分类问题,即预测变量y可以取k个离散值中的任何一个.比如一个邮件分类系统将邮件分为私人邮件,工作邮件和垃圾邮件。由于y仍然是一个离散值,只是相对于二分类的逻辑回归多了一些类别。下面将根据多项式分布建模。考虑将样本共有k类,每一类的概率分别为,由于,所以通常我们只需要k-1个参数即可,为了推... 阅读全文
posted @ 2014-10-07 15:41 90Zeng 阅读(2824) 评论(0) 推荐(0) 编辑
摘要: 开始,首先下载数据ex4Data.zip假设该数据集代表着一所高中学生中40名被大学录取,而另外40名没有被大学录取。每一个训练样例(x(i),y(i))包含一个学生的两科标准考试成绩以及是否被录取的标签。现在需要建立一个分类模型,要求根据学生的两科考试成绩,来判断学生被录取的概率。画出数据:x =... 阅读全文
posted @ 2014-10-07 11:52 90Zeng 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: 在逻辑回归之问题建模分析中我们提到最大化参数θ的最大化似然函数可以用梯度下降法,对参数进行更新直至上面的对数似然函数收敛。下面引入另一种方法:牛顿方法。开始,首先我们考虑如何找到一个函数的零点。也就是我们有一个函数:,我们希望找到一个值θ,使得.我们首先随机取某一点(x,f(x)),那么f(x)在该... 阅读全文
posted @ 2014-10-07 10:34 90Zeng 阅读(909) 评论(0) 推荐(0) 编辑