随笔分类 -  机器学习

摘要:前言 不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚。或是当时道行太浅,或是当时积累不够。 这次重游机器学习之路,看到李航老师《统计学习方法》中第一章关于经验风险最小化与结构风险最小化时谈到了极大似然与最大后验的话题,第一反应是竟然在第一章就谈到了极大似然与最大后验,相信大部 阅读全文
posted @ 2019-08-14 10:22 三年一梦 阅读(958) 评论(0) 推荐(0) 编辑
摘要:一. ROC曲线概念 二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣,Sk 阅读全文
posted @ 2018-08-19 16:37 三年一梦 阅读(13506) 评论(0) 推荐(0) 编辑
摘要:1. Apriori算法简介 Apriori算法是挖掘布尔关联规则频繁项集的算法。Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集。先找到频繁项集1-项集集合L1, 然后用L1找到频繁2-项集集合L2,接着用L2找 阅读全文
posted @ 2017-12-10 10:13 三年一梦 阅读(7760) 评论(0) 推荐(0) 编辑
摘要:学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。 首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征 阅读全文
posted @ 2017-11-16 21:00 三年一梦 阅读(41642) 评论(10) 推荐(5) 编辑
摘要:1. 密度聚类概念 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于 阅读全文
posted @ 2017-11-10 22:56 三年一梦 阅读(8918) 评论(0) 推荐(1) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-11-06 20:08 三年一梦 阅读(23) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-11-05 21:17 三年一梦 阅读(38) 评论(0) 推荐(0) 编辑
摘要:一.PAM聚类算法: 选用簇中位置最中心的对象,试图对n个对象给出k个划分;代表对象也被称为是中心点,其他对象则被称为非代表对象;最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量;在每次迭代中,所有可能的对象对被分析,每个对中的一个对象是 阅读全文
posted @ 2017-11-03 10:29 三年一梦 阅读(24801) 评论(2) 推荐(1) 编辑
摘要:经典的无监督聚类算法,不多说,上代码。 结果: 原图 k=5 结果图 阅读全文
posted @ 2017-10-22 20:49 三年一梦 阅读(4508) 评论(1) 推荐(0) 编辑
摘要:1. 参数调整 每个机器学习算法包含一系列参数,勇于调整算法来控制模型。一般来说随着算法复杂度的增加,调整参数会越多,更难于理解。下面几个例子为流行的分类算法调参方法: 1)逻辑回归:无 2)knn:要平均的近邻数目 3)决策树:划分标准、树的最大深度、划分需要的最少样本数。 4)核函数SVM:核函 阅读全文
posted @ 2017-10-15 21:02 三年一梦 阅读(944) 评论(0) 推荐(0) 编辑
摘要:1.过拟合与乐观模型 有监督学习的基本目标是准确预测,当对模型进行性能评估时,需要确定模型对新数据的性能如何。即需要一个指标来确定预测的泛化能力如何。对于回归问题来说,标准评价指标是均方误差(Mean Squared Error)。它是目标变量真实值和预测值之差的平方和的均值。参看下图(学习自 Re 阅读全文
posted @ 2017-10-15 15:03 三年一梦 阅读(2158) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示