摘要:
1、基本流程 决策树中决策过程的每一次判定都是对某一属性的“测试”,决策最终结论则对应最终的判定结果。 一般一棵决策树包含:一个根节点、若干个内部节点和若干个叶子节点 每个非叶节点表示一个特征属性测试。 每个分支代表这个特征属性在某个值域上的输出。 每个叶子节点存放一个类别。 每个节点包含的样本集合 阅读全文
摘要:
线性模型(上)记录了线性模型寻求最优解的原理,下面学习线性模型遇到的多分类问题、类别不平衡问题: 1、多分类学习 一对一(OvO):N个类别两两配对,将多分类问题转化为N(N-1)/2个二分类问题。 一对余(OvR):假设有N个类别,每次把一个类作为正类,其他类作为反类,将多分类问题转化为(N-1) 阅读全文
摘要:
1、线性回归 线性: 两个变量之间的关系是一次函数关系 回归: 人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。 线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出 阅读全文
摘要:
1、缺失值的认定 由于数据的来源的复杂性、不确定性,数据中难免会存在字段值不全、缺失等情况,本文将介绍如何找出这些缺失的值。 2、缺失值的操作 3、数据替换 4、重复值及删除数据 5、Numpy格式转换 转换方法: (1) ds.to_numpy() (2) s.array 阅读全文