2015年7月24日

摘要: 参考NB: 优点:高效(收敛速度快)、易实现;对小规模数据表现好(生成模型的原因?高偏差低方差的原因?); 缺点:性能不一定高;不能学习特征之间的相互作用 解释:NB的模型参数很容易求(有直接的公式求解),所以高效、易实现。 由于特征的条件独立假设不一定能满足所以分类性能不能保证很高。... 阅读全文
posted @ 2015-07-24 17:29 二的二次方 阅读(427) 评论(0) 推荐(0) 编辑

2015年7月22日

摘要: 从几何意义上的个人理解:逻辑回归本质上是回归,而且是线性的回归,即拟合一条直线(线性超平面)sigmoid函数在这里可以理解为某种点到超平面的归一化的距离函数逻辑回归最终是寻找一条曲线将两部分数据分隔开。定义的距离函数就是“sigmoid距离函数”而极大似然概率法可以看成最大化所有样本到超平面的距离... 阅读全文
posted @ 2015-07-22 23:23 二的二次方 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 总结:由于逻辑回归假定y的条件分布(y|x)是伯努利分布,所以根据广义线性模型和指数分布簇的定义,它对应的假设函数是sigmoid函数。广义线性模型的三个假设——逻辑回归1、 假定服从指数分布簇的某个分布(见文章后面参考) 逻辑回归中,,所以假定【即已知参数θ的情况下,给定x,y的条件概率服从参数... 阅读全文
posted @ 2015-07-22 17:54 二的二次方 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 特点:高效,易实现;性能不一定高注意:对概率值取对数,变乘积为加法,避免连乘带来的小数问题;拉普拉斯平滑处理。参考:维基百科,平凡而又神奇的贝叶斯方法,《统计学习方法》1 简介: 朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。具... 阅读全文
posted @ 2015-07-22 09:26 二的二次方 阅读(361) 评论(0) 推荐(0) 编辑

2015年7月15日

摘要: 内连接:舍弃所有不匹配的行左外连接(left join):舍弃右表中不匹配的行,左表的行全部保留(不匹配处用null)右外连接(right join):舍弃左表中不匹配的行,右表的行全部保留(不匹配处用null)全连接(full join):全部保留,不匹配处用null参考事务的4个属性ACID:原... 阅读全文
posted @ 2015-07-15 19:41 二的二次方 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1)多态:允许将子类类型的指针赋值给父类类型的指针。赋值以后,父类对象可以根据当前赋值给它的子类对象的特性以不同的方式运作。2)深拷贝:重新分配内存;浅拷贝:共用同一内存。3)友元:非成员函数不能通过类的对象访问私有成员,但是友元(函数)可以;友元函数却不是成员函数,但必须在类中声明;类与类之间的友... 阅读全文
posted @ 2015-07-15 16:03 二的二次方 阅读(400) 评论(0) 推荐(0) 编辑

2015年7月14日

摘要: CART:分类回归树分类树和回归树的区别:分裂节点时使用的节点非纯度量(最小化准则、特征选择)不一样,修剪树的准则不一样回归树: 节点非纯度量:平方误差和 区域估计值:均值(在给定的划分下,均值带来的平方误差和最小)分类树: 节点非纯度量:误分类误差、Gini指数、熵 区域估计值:多数类G... 阅读全文
posted @ 2015-07-14 23:54 二的二次方 阅读(366) 评论(0) 推荐(0) 编辑

2015年7月11日

摘要: 区别:使用不同的属性选择度量。信息增益偏向多值属性信息增益率倾向产生不平衡的划分基尼指数偏向多值属性,并且当类的数量很大时会有困难,还倾向于导致相等大小的分区和纯度C4.5:优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效... 阅读全文
posted @ 2015-07-11 22:51 二的二次方 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 机器学习:伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans;基本知识:1)监督与非监督区别;2)L1L2区别;3)生成模型和判别模型区别算法的优缺点以及相应解决方案:k-means, KNN, apriori算法原理:LR、KNN、k-means、apriori、ID3(C45,CART)... 阅读全文
posted @ 2015-07-11 22:30 二的二次方 阅读(850) 评论(3) 推荐(1) 编辑
摘要: 处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值) 阅读全文
posted @ 2015-07-11 22:21 二的二次方 阅读(311) 评论(0) 推荐(0) 编辑

导航