摘要: 聚类是一种无监督学习,它将相似的对象归到同一个簇中。有点像全自动分类。几乎可以应用于所有对象,簇内对象越相似,聚类效果越好。 阅读全文
posted @ 2019-05-10 17:11 2048的渣渣 阅读(1091) 评论(0) 推荐(0) 编辑
摘要: 实际生活中,很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术建模。如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构和回归法就相当有用。 阅读全文
posted @ 2019-05-09 17:27 2048的渣渣 阅读(831) 评论(0) 推荐(0) 编辑
摘要: 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 阅读全文
posted @ 2019-05-08 17:14 2048的渣渣 阅读(2914) 评论(0) 推荐(0) 编辑
摘要: 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。 阅读全文
posted @ 2019-05-07 16:14 2048的渣渣 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 有些人认为,SVM是最好的现成的分类器,这里的“现成”指的是分类器不加修改即可直接使用。同时,这就意味着在数据上应用基本形式的SVM分类器就可以得到低错误率的结果。SVM能够对训练集之外的数据点做出很好的分类决策。 阅读全文
posted @ 2019-05-06 17:34 2048的渣渣 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 概率论是许多机器学习算法的基础,首先从一个最简单的概率分类器开始,然后给出一些假设来学习朴素贝叶斯分类器。称之为“朴素“是因为整个形式化过程只做最原始最简单的假设。 阅读全文
posted @ 2019-05-05 16:25 2048的渣渣 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 决策树的一个重要任务是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则。 阅读全文
posted @ 2019-05-01 13:47 2048的渣渣 阅读(472) 评论(0) 推荐(0) 编辑
摘要: k-近邻算法是分类数据最简单最有效的算法。 阅读全文
posted @ 2019-04-29 20:19 2048的渣渣 阅读(792) 评论(0) 推荐(0) 编辑
摘要: logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。 阅读全文
posted @ 2019-04-29 17:10 2048的渣渣 阅读(2382) 评论(0) 推荐(0) 编辑
摘要: 在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表。 阅读全文
posted @ 2019-04-26 23:25 2048的渣渣 阅读(917) 评论(0) 推荐(0) 编辑