青菜蘸酱油

2020年4月2日

摘要：（1）如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了；（2）如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中；【注：NaN（Not a Number，非数）是计算机科学中数值阅读全文

posted @ 2020-04-02 17:05 青菜蘸酱油阅读(1872) 评论(0) 推荐(0)

2020年3月4日

多变量线性回归

摘要：在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。阅读全文

posted @ 2020-03-04 10:34 青菜蘸酱油阅读(331) 评论(0) 推荐(0)

回归（补充）

摘要：通过找一条直线来拟合这些数据点的分布（也就是描述这些点），然后用这条拟合的线来对未知点进行预测，这就是线性回归问题。回归分析用来建立方程模拟两个或多个变量之间如何关联；被预测变量叫因变量（也就是输出）；被用来进行预测的变量叫做自变量（即输入）。阅读全文

posted @ 2020-03-04 10:28 青菜蘸酱油阅读(86) 评论(0) 推荐(0)

2020年2月26日

单变量线性回归

摘要：回归由来回归是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822～1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加阅读全文

posted @ 2020-02-26 16:11 青菜蘸酱油阅读(414) 评论(0) 推荐(0)

2019年12月14日

监督学习和非监督学习

摘要：监督学习：监督学习就是分类，把人们已经处理好的训练样本（即已知数据和对应输出）给计算机，计算机通过规律训练出一个最佳模型，再用这个模型对输入的数据进行分类，得出对应的输出。从而使计算机具有对未知数据进行分类的功能。特点：目标明确需要带标签的训练样本分类效果很容易评估非监督学习：非监督学阅读全文

posted @ 2019-12-14 18:05 青菜蘸酱油阅读(282) 评论(6) 推荐(1)

公告