随笔分类 - 机器学习
摘要:决策树 决策树是机器学习里面一个比较简单的模型。决策树学起来比较简单,思路也很明确,但是,如果深入了解,还是有很多可以讲的地方的。Random Forest,GBDT,XGBOOST等等,都是决策树的扩展。 什么是决策树 顾名思义,决策树是基于树结构来进行决策的,这与人们面临真实的决策问题时的处理过
阅读全文
摘要:逻辑回归是统计学习方法中的经典分类方法,也是在深度学习兴起之前,工业界最为常用的分类算法之一。 什么是逻辑回归 逻辑回归在某些书中也被称为对数几率回归(比如西瓜书),是一种广义的线性模型:利用一个单调可微的函数将分类任务的真实标记 与线性回归模型的预测值联系起来。 考虑一个二分类问题,输
阅读全文
摘要:原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.《数学之美》PDF6 作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。 2.《Programming Collective Inte
阅读全文
摘要:最近在看聚类方面的论文,接触到了MCL聚类,在网上找了许久,没什么中文的资料,可能写的最具体的便是GatsbyNewton写的 "马尔可夫聚类算法(MCL)" 这篇博客了。但是,其中仍有一些不详细的地方。而MCL这一方法是在作者在其博士论文中提出的,篇幅太长,难以细读,也不适合作为用来学习MCL这一
阅读全文
摘要:朴素贝叶斯算法是以后验概率最大为理论基础而得出的分类模型。要了解朴素贝叶斯,就需要先了解贝叶斯公式。 贝叶斯公式 首先,先看下面这个例子: 假设一所学校里面有40%的男生,60%的女生。 你在这所学校的大道上走,迎面走来一个人,由于比较远,看不清楚特征。现在需要你判断Ta的性别,请问你的答案是什么?
阅读全文
摘要:简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项。线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差项之后,方程的解法就存在了改变,一般使用最小二乘法进行计算。 使用sklearn.linear_m
阅读全文
摘要:岭回归 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。 使用sklearn.linear_model.Ridge进行岭回归
阅读全文
摘要:简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn是Scipy的扩展,建立在NumPy和matplotl
阅读全文