摘要:一、分类模型的评估指标:样本不均匀问题 ### 分类模型的评估指标 ~~~ # 样本不均匀问题 ~~~ 对于分类问题,永远都逃不过的一个痛点就是样本不均衡问题。 ~~~ 样本不均衡是指在一组数据集中,标签的一类天生占有很大的比例, ~~~ 但我们有着捕捉出某种特定的分类的需求的状况。 ~~~ 比如,
阅读全文
摘要:一、决策树的算法评价 ### 决策树的算法评价 ~~~ # 决策树优点 ~~ 易于理解和解释,因为树木可以画出来被看见。 ~~ 需要很少的数据准备。其他很多算法通常都需要数据规范化,需要创建虚拟变量并删除空值等。 ~~~ 但请注意,sklearn 中的决策树模块不支持对缺失值的处理。 ~~ 使用树的
阅读全文
摘要:一、线性回归算法 ### 概述 ~~~ 在正式进入到回归分析的相关算法讨论之前, ~~~ 我们需要对有监督学习算法中的回归问题进行进一步的分析和理解。 ~~~ 虽然回归问题和分类问题同属于有监督学习范畴,但实际上,回归问题要远比分类问题更加复杂。 ~~~ 首先是关于输出结果的对比,分类模型最终输出结
阅读全文
摘要:一、使用SK-LEARN实现决策树:参数CRITERION ### 使用SK-LEARN实现决策树 ~~~ # 参数CRITERION ~~~ # criterion 这个参数是用来决定不纯度的计算方法。sklearn 提供了两种选择: ~~~ 输入 “entropy”,使用信息熵(Entropy)
阅读全文
摘要:一、决策树:决策树基本流程 ### 决策树 ~~~ # 决策树模型 ~~~ 树模型是有监督学习类算法中应用广泛的一类模型,同时可应用于分类问题和回归问题, ~~~ 其中用于解决分类问题的树模型常被称为分类树,而用于解决回归类问题的树模型被称作回归树。 ~~~ 树模型通过递归式切割的方法来寻找最佳分类
阅读全文
摘要:一、归一化 ### 归一化 ~~~ # 距离类模型归一化的要求 ~~~ 什么是归一化?我们把 X 放到数据框中来看一眼,你是否观察到,每个特征的均值差异很大? ~~~ 有的特征数值很大,有的特征数值很小,这种现象在机器学习中被称为"量纲不统一"。 ~~~ KNN 是距离类模型,欧氏距离的计算公式中存
阅读全文
摘要:一、监督学习算法:KNN/K近邻算法:算法原理 ### KNN/K近邻算法 ~~~ # 算法原理 ~~~ 它的本质是通过距离判断两个样本是否相似,如果距离够近就认为他们足够相似属于同一类别。 ~~~ 当然只对比一个样本是不够的,误差会很大,我们需要找到离其最近的 k 个样本, ~~~ 并将这些样本称
阅读全文
摘要:一、选择最优K值 ### 选择最优K值 ~~~ KNN 中的 k 是一个超参数,所谓“超参数”,就是需要人为输入,算法不能通过直接计算得出的参数。 ~~~ KNN 中的 k 代表的是距离需要分类的测试点 x 最近的 k 个样本点, ~~~ 如果不输入这个值,那么算法中重要部分 “选出 k 个最近邻”
阅读全文
摘要:一、前言: 机器学习理论基础 ### 案例说明 ~~~ # 在一个酒吧里,吧台上摆着十杯几乎一样的红酒,老板跟你打趣说想不想来玩个游戏, ~~~ 赢了免费喝酒,输了付3倍酒钱,那么赢的概率是多少? ~~~ # 你是个爱冒险的人,果断说玩! ~~~ # 老板接着道:你眼前的这十杯红酒,每杯略不相同,
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文