摘要: 数据预处理与特征工程 缺失值处理 缺失值处理通常有如下的方法: 对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行; 如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法; 可以使 阅读全文
posted @ 2017-06-06 17:41 亢奋的小马哥 阅读(13327) 评论(0) 推荐(0) 编辑
摘要: 二元化(Binarization)是通过(选定的)阈值将数值化的特征转换成二进制(0/1)特征表示的过程。 Binarizer(ML提供的二元化方法)二元化涉及的参数有inputCol(输入)、outputCol(输出)以及threshold(阀值)。(输入的)特征值大于阀值将映射为1.0,特征值小 阅读全文
posted @ 2017-06-06 16:37 亢奋的小马哥 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 但是,请记住,相关性不等于因果性 两个重要的要素从非常直观的分析思路来说,比如分析身高和体重,我们会问个问题:.身高越高,体重是不是越重?问 阅读全文
posted @ 2017-06-06 11:12 亢奋的小马哥 阅读(3785) 评论(0) 推荐(0) 编辑