摘要: 数据预处理与特征工程 缺失值处理 缺失值处理通常有如下的方法: 对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行; 如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法; 可以使 阅读全文
posted @ 2017-06-06 17:41 亢奋的小马哥 阅读(13349) 评论(0) 推荐(0) 编辑
摘要: 二元化(Binarization)是通过(选定的)阈值将数值化的特征转换成二进制(0/1)特征表示的过程。 Binarizer(ML提供的二元化方法)二元化涉及的参数有inputCol(输入)、outputCol(输出)以及threshold(阀值)。(输入的)特征值大于阀值将映射为1.0,特征值小 阅读全文
posted @ 2017-06-06 16:37 亢奋的小马哥 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 但是,请记住,相关性不等于因果性 两个重要的要素从非常直观的分析思路来说,比如分析身高和体重,我们会问个问题:.身高越高,体重是不是越重?问 阅读全文
posted @ 2017-06-06 11:12 亢奋的小马哥 阅读(3869) 评论(0) 推荐(0) 编辑
摘要: 交叉验证应用与各种算法中,用于验证超参数的最优值。 常用的算法有逻辑回归、神经网络、ALS、SVM、决策树等。 Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮 阅读全文
posted @ 2017-06-03 17:39 亢奋的小马哥 阅读(2840) 评论(0) 推荐(0) 编辑
摘要: ALS 是交替最小二乘 (alternating least squares)的简称。在机器学习的上下文中,ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。 用户打分矩阵(行表示商品,列表示用户,每行表示用户对多个商 阅读全文
posted @ 2017-06-02 16:47 亢奋的小马哥 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 特征选择很重要,除了人工选择,还可以用其他机器学习方法,如逻辑回归、随机森林、PCA、LDA等。 分享一下逻辑回归做特征选择 特征选择包括: 特征升维 特征降维 特征升维 如一个样本有少量特征,可以升维,更好的拟合曲线 特征X 升维X/X**2/ 效果验证,做回归 加特征x**2之后的效果 特征X1 阅读全文
posted @ 2017-06-01 15:20 亢奋的小马哥 阅读(4360) 评论(0) 推荐(0) 编辑
摘要: 线性回归、逻辑回归可以解决分类问题(二分类、多分类)、回归问题。 主要技术点 线性回归 高斯分布 最大似然估计MLE 最小二乘法的本质Logistic回归 分类问题的首选算法重要技术 梯度下降算法 最大似然估计 特征选择  交叉验证 一、线性回归 y=ax+b (一个变量) 两个变量 阅读全文
posted @ 2017-06-01 14:17 亢奋的小马哥 阅读(1174) 评论(0) 推荐(0) 编辑
摘要: svm是一种分类算法,一般先分为两类,再向多类推广一生二,二生三,三生。。。 大致可分为: 线性可分支持向量机 硬间隔最大化hard margin maximization 硬间隔支持向量机 线性支持向量机 软间隔最大化soft margin maximization 软间隔支持向量机 阅读全文
posted @ 2017-06-01 11:41 亢奋的小马哥 阅读(2469) 评论(0) 推荐(0) 编辑