机器学习基础3--线性分类模型
案例:
餐厅推荐系统
目标:
输入一个食物名称,找到最佳的餐厅
我们可以通过评论,了解一个餐厅的食物如何.
比如说我们需要寻找寿司(sushi):
1.Watching the chefs create incredible edible art made the experience very unique.
2.My wife tried their ramen and it was pretty forgettable.
3.All the sushi was delicious! Easily best sushi in Seattle.
这是3条评论,第1条说的是体验很棒.第2条说的是拉面令人难忘(很难吃).第3条说的是寿司非常棒.
很明显,因为要寻找寿司餐厅,我们不关心拉面如何,所以第2条对我们没有什么意义.但是1和3,可以都列为积极评价.
我们需要制作一个这样的工具(分类器):
1.把所有评论输入进去
2.它会将评论拆分成句子
3.然后放入一个情感分类器
4.每个语句的结果打分求平均值
5.最好还能列出分值最高的评论
几个使用分类器的例子:
1.网页分类器
2.垃圾邮件过滤
3.图像识别
4.医疗诊断
5.读懂大脑
线性分类器:
上面我们讨论到了分类器,那么分类器究竟是如何工作的?
我们设定一个字典,将积极的单词和消极的单词标注出来
在一个句子中积极单词数量大于消极单词数量,我们就认为这个句子是积极的,否则,就是消极的.
嗯...我知道这有点扯犊子.
局限:
1.在哪里获取字典
2.单词的表示程度不同
3.单一的词汇也是不完善的(比如good和not good)
如果我们给单词增加权重,一个句子的得分为权重之和.
理解线性分类:
我们在2维(只有2个权重单词)进行讨论
画出X轴和Y轴的坐标系
X轴表示awesome单词出现的次数,Y轴表示awful单词出现的次数.
将每个句子包含的单词个数在坐标系表示出来,就形成了如上图所示的坐标系.
那么,在什么时候得分是0?
很明显,Score(x) = 1.0 #awesome – 1.5 #awful 这条线就是得分为0的那条直线,叫做决策边界.
注意:决策边界就是一条直线,这也是叫线性分类器的原因.
在2个特征时,决策边界是一条线.
在3个特征时,决策边界是一个面.
在多个特征,决策边界称为超平面,这时候就不能使用简单的线性分类器了,并且这个超平面有着更复杂的形状.
end
课程:机器学习基础:案例研究(华盛顿大学)
视频链接:https://www.coursera.org/learn/ml-foundations/home/welcome
week3 Classification modeling