摘要: (1)如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了; (2)如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中; 【注:NaN(Not a Number,非数)是计算机科学中数值 阅读全文
posted @ 2020-04-02 17:05 青菜蘸酱油 阅读(1753) 评论(0) 推荐(0) 编辑
摘要: 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。 事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 阅读全文
posted @ 2020-03-04 10:34 青菜蘸酱油 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 通过找一条直线来拟合这些数据点的分布(也就是描述这些点),然后用这条拟合的线来对未知点进行预测,这就是线性回归问题。 回归分析用来建立方程模拟两个或多个变量之间如何关联; 被预测变量叫因变量(也就是输出); 被用来进行预测的变量叫做自变量(即输入)。 阅读全文
posted @ 2020-03-04 10:28 青菜蘸酱油 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 回归由来回归是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加 阅读全文
posted @ 2020-02-26 16:11 青菜蘸酱油 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 监督学习: 监督学习就是分类,把人们已经处理好的训练样本(即已知数据和对应输出)给计算机,计算机通过规律训练出一个最佳模型,再用这个模型对输入的数据进行分类,得出对应的输出。 从而使计算机具有对未知数据进行分类的功能。 特点:目标明确 需要带标签的训练样本 分类效果很容易评估 非监督学习: 非监督学 阅读全文
posted @ 2019-12-14 18:05 青菜蘸酱油 阅读(229) 评论(6) 推荐(1) 编辑