随笔分类 -  A---机器学习

摘要:回归与梯度下降 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个 阅读全文
posted @ 2018-03-21 22:01 Angel_Kitty 阅读(4883) 评论(8) 推荐(7) 编辑
摘要:损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可 阅读全文
posted @ 2018-03-01 17:32 Angel_Kitty 阅读(15558) 评论(0) 推荐(1) 编辑
摘要:在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类算法进行了基础介绍,并通过简单而详细的例证对其工作过程进行了解释说明。 看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组 阅读全文
posted @ 2017-10-01 09:07 Angel_Kitty 阅读(4518) 评论(0) 推荐(3) 编辑
摘要:图论一直是数学里十分重要的学科,其以图为研究对象,通常用来描述某些事物之间的某种特定关系。而在机器学习的世界里,我们希望从数据中挖掘出隐含信息或模型。因此,如果我们将图中的结点作为随机变量,连接作为相关性关系,那么我们就能构造出图模型,并期望解决这一问题。本文将为构造该模型提供最基础的概念。 我们都 阅读全文
posted @ 2017-09-30 12:29 Angel_Kitty 阅读(1547) 评论(4) 推荐(0) 编辑
摘要:使用朴素贝叶斯进行文本的分类 引言 朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法基于一个假设,所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。虽然这种条件独立的假设在许多应用领域未必能很好满足,甚至是不成立的。但这种 阅读全文
posted @ 2017-08-23 17:36 Angel_Kitty 阅读(2413) 评论(2) 推荐(0) 编辑
摘要:机器学习十大常用算法小结 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。以后有时间再对单个算法做深入地解析。 今天的算法如下: 决 阅读全文
posted @ 2017-08-20 11:55 Angel_Kitty 阅读(2143) 评论(0) 推荐(4) 编辑
摘要:PCA 的数学原理和可视化效果 本文结构: 什么是 PCA 数学原理 可视化效果 1. 什么是 PCA PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。 例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 阅读全文
posted @ 2017-08-19 08:48 Angel_Kitty 阅读(1100) 评论(9) 推荐(1) 编辑
摘要:本文结构: 基本流程 有放回抽样的好处 Bagging 特点 sklearn 中 Bagging 使用 Bagging 和 Boosting 的区别 bagging:bootstrap aggregating 的缩写。是一种并行式集成学习方法,可用于二分类,多分类,回归等任务。 基本流程: 对一个包 阅读全文
posted @ 2017-08-18 08:47 Angel_Kitty 阅读(757) 评论(0) 推荐(0) 编辑
摘要:本文结构: 时间序列分析? 什么是ARIMA? ARIMA数学模型? input,output 是什么? 怎么用?-代码实例 常见问题? 时间序列分析? 时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温。。 阅读全文
posted @ 2017-08-17 08:36 Angel_Kitty 阅读(17706) 评论(4) 推荐(5) 编辑
摘要:本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boosting? Adaboost 算法? 什么是集成学习 集成学习就是将多个弱的学习器结合起来组成一个强的学习器。 这就涉及到,先产生一组‘个体学习器’,再用一个策略将它们结合起来。 个体学习器可以 阅读全文
posted @ 2017-08-16 08:55 Angel_Kitty 阅读(1442) 评论(4) 推荐(1) 编辑
摘要:本文结构: CART算法有两步 回归树的生成 分类树的生成 剪枝 CART - Classification and Regression Trees 分类与回归树,是二叉树,可以用于分类,也可以用于回归问题,最先由 Breiman 等提出。 分类树的输出是样本的类别, 回归树的输出是一个实数。 C 阅读全文
posted @ 2017-08-15 08:23 Angel_Kitty 阅读(2681) 评论(2) 推荐(3) 编辑
摘要:本文结构: 是什么? 有什么算法? 数学原理? 编码实现算法? 1. 是什么? 简单地理解,就是根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为几类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。 2 阅读全文
posted @ 2017-08-14 08:52 Angel_Kitty 阅读(7954) 评论(0) 推荐(4) 编辑
摘要:摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值 阅读全文
posted @ 2017-08-13 11:41 Angel_Kitty 阅读(613) 评论(0) 推荐(0) 编辑