随笔分类 - 机器不学习和人工智障
摘要:一、推荐系统与评估 0.一种数学定义: (1)设C为全体用户集合 (2)设S为全部商品/推荐内容集合 (3)设u是评判把si推荐给ci好坏判断函数 (4)推荐是对于c<-C,找到s<-S,使得u最大,即: 部分场景是topN推荐 (5)通俗点说,推荐系统需要根据用户的历史行为,社交行为,兴趣点,所处
阅读全文
摘要:一、前言 1.特征工程与意义 (1)特征:数据中抽取出来的对结果预测有用的信息 (2)特征工程师使用专业的背景知识和技巧来处理数据,使得特征能在机器学习算法中发挥更好的作用的过程 (3)意义:更好的特征意味着更强的灵活度 更好的特征意味着只需要简单模型 更好的特征意味着更好的结果 2.实际工业界特征
阅读全文
摘要:一、熵、联合熵(相当于并集)、条件熵、互信息 1.熵是什么? (0)信息量:信息的度量p(xi)。信息量和概率成反比,熵是信息量的期望。 X是一个随机变量,可能取值有很多个。熵是信息量的期望。熵反应的是不确定性,如果不确定性越高,熵越高,概率越低。熵是可以大于1的,但是概率是不可以大于1的 (1)物
阅读全文
摘要:零、各种概念 1.硬间隔最大化 2.硬间隔支持向量机 3.线性支持向量机 软间隔最大化 软间隔支持向量机 4.非线性支持向量机 核函数kernel function 一、理解支持向量机SVM的原理和目标 二、理解支持向量机的计算过程和算法步骤 三、理解软间隔最大化的 含义 1.对线性不可分数据给出(
阅读全文
摘要:1.我们希望通过下式:最小化w的范数来得到最大间隔划分超平面对应的模型,其中w和b是模型参数: 这里xi和yi都是已知的,约束条件有m个,每一个样本点有一个约束,有m个样本点有m个约束,w是一个变量,w和b是一个向量。 2.对上式利用拉格朗日乘子法可以得到其对偶问题,即对上式每条约束添加一个拉格朗日
阅读全文
摘要:1.分类学习最基本的想法就是:基于一个训练集D在样本空间中找到一个划分超平面,将不同的类别样本分开。两类训练样本“正中间”超平面所产生的结果是最鲁棒的,对局部扰动容忍最好,对于未见的实例的泛化能力最强。 2.划分超平面可以由:方程来描述,其中为法向量,决定了超平面的方向,b为位移项,决定了超平面与原
阅读全文
摘要:一、 1.在这节课中我们将补充一些缺失的细节,并且介绍一些在实际中应用这些思想,例如怎么处理支持向量机中的偏差分析。上节课我们谈到选择标记点的过程,比如l(1),l(2)和l(3)使我们能够定义相似度函数,我们也称之为核函数,在这个例子中,我们的相似度函数为高斯核函数,这使得我们能够构造一个预测函数
阅读全文
摘要:ki一、在这次课程中,我们将改造支持向量机算法,来构造比较复杂的非线性分类器,主要的技巧是称之为核(kernel)的东西,接下来我们看看核函数是什么以及如何使用它。 1.如果有一个这样的训练集,然后希望拟合一个非线性判别边界来区分正负样本示例,可能是下面这样的一个边界:一种方法是构造一个复杂多项式特
阅读全文
摘要:1.向量内积: (1)假设有u和v这两个二维向量:,接下来看一下u的转置乘以v的结果,u的转置乘以v也叫做向量u和向量v的内积,u是一个二维向量,可以将其在图上画出来,如下图所示向量u: 在横轴上它的值就是某个u_1,在纵轴上它的高度就是某个值u_2,即U的第二个分量,那么现在就容易得出向量u的范数
阅读全文
摘要:1.下面是支持向量机(SVM)的代价函数: 上图左边是cost1(z)函数,用于正样本,右边画出了关于z的代价函数cost0(z),函数的横轴是z,现在我们想一下怎么样才能使得这些代价函数变得更小呢?当有一个正样本的时候,y=1,那么仅当z大于等于1的时候,cost1(z)=0,换句话说,如果有一个
阅读全文
摘要:1.为了描述SVM,需要从logistic回归开始进行学习,通过改变一些小的动作来进行支持向量机操作。在logistic回归中我们熟悉了这个假设函数以及右边的sigmoid函数,下式中z表示θ的转置乘以x, (1)如果我们有一个样本,其中y=1,这样的一个样本来自训练集或者测试集或者交叉验证集,我们
阅读全文
摘要:一、SVM模型 1.函数间隔与几何间隔,哪一条线是最好的? (1)公式化问题。 分类模型:当里面的值小于0的时候就是-1,当里面的值是大于等于0的时候就是1 函数间隔:前面乘以y(i),是为了保持数值为正值,数据点到直线的距离。把点代进去就是其函数间隔,函数间隔最好的是几何间隔最大的那个。最好的分类
阅读全文
摘要:一、从LR到决策树 0.思考一些一个分类问题:是否去相亲,LR解决的问题可能是这样的 在下面各个特征下给定w1,w2,w3,w4等参数值,将wx+b送到sigmoid函数中去,拿到一个概率p,我们在使用这个函数的时候会有一个损失函数loss function,对于这个代价函数通过GD梯度下降完成优化
阅读全文
摘要:一、机器学习以及scikit-learn 1. 机器学习基本步骤: (1)定义一系列函数 => (2)定义函数的优劣 => (3)选择最优函数 2.什么是scikit-learn? (1)面向python的免费机器学习库 (2)包含分类、回归、聚类算法,比如:SVM、随机森林、k-means等 (3
阅读全文
摘要:一、分类问题(监督学习,选择题) 1.根据数据样本上抽出的特征,判别其属于有限个类别中的哪一个 2.垃圾邮件识别(结果类别:1、垃圾邮件;2、正常邮件) 3.文本情感褒贬分析(结果类别:1、褒;2、贬) 4.图像内容识别(选择题:结果类别:1、喵星人;2、汪星人;3、人类;4、草拟马;5、都不是)
阅读全文
摘要:1.这是梯度下降的规则:,我们要学习的是:(1)Debugging:确保梯度下降正常的工作。(2)选择合适的学习率 2.我们通常所做的事情是确保梯度下降正常工作,梯度下降所做的事情是为你找到一个θ值,并希望能够最小化代价函数J(θ),
阅读全文
摘要:1.对某些线性回归问题,正规方程给出了更好的解决方法,来求得参数θ,截止到目前我们一直使用线性回归算法是梯度下降法,为了最小化代价函数J(θ),我们使用梯度下降多次迭代,来收敛得到全局的最小值。与此相反的正规方程提供了一种求θ的解析方法,我们不需要再去运用迭代的方法,而是可以直接一次性的求解θ最优值
阅读全文
摘要:1.房价案例: 房价预测:我们有两个特征,临街宽度(frontage)和纵深(depth),我们可以建立这样的线性回归模型,临街宽度是第一个特征x1,纵深是第二个特征x2 。这里我们可以自己选择特征值,将frontage 乘以 depth得到我们拥有土地的面积,于是我们就用这一个特征来计算,有时通过
阅读全文
摘要:梯度下降运算中的使用技巧特征缩放: 确保不同的特征值都处在一个相近的范围之内,这样的梯度下降法能够更快的收敛 如:加入你有一个具有两个特征额问题,x1是房屋面积大小,取值在0-2000之间; x2是卧室的数量,可能的取值在1到5之间,如果要画出代价函数J(θ)的等值线,代价函数是关于参数θ1和θ2的
阅读全文
摘要:1.左边是梯度下降算法,右边是线性回归模型 我们要做的是将梯度下降算法应用到最小化平方差代价函数 在计算梯度下降时,不断的重复计算直至最后收敛。 上式(1)中是对θ0进行求偏导,(2)是对θ1求偏导。在凸函数中,
阅读全文