06 2017 档案
摘要:利用poi将excel文件后缀为.xls .xlsx的文件转换成txt/csv文本文件 首先,引入所需的jar包: 完整代码 调用
阅读全文
摘要:一、概念 KMeans基于划分的聚类方法 给定数据样本集Sample和应该划分的类书K,对样本数据Sample进行聚类,最终形成K个聚类,其相似的度量是某条数据与中心点的“距离”(距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离,欧氏距离也称欧几里得距离,它是在m维空间中两个点之
阅读全文
摘要:It could be a resource problem. Try to increase the number of cores and executor and also to assign more RAM to the application then you should increa
阅读全文
摘要:相比于Hadoop,Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦:Spark保存文件的的函数(如saveAsTextFile)在保存数据时都需要新建一个目录,然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件(而不是增加一个目录) 把分区设置成1个 结果
阅读全文
摘要:spark提交任务 bin/spark-submit --name Test --class com.test.batch.modeltrainer.ModelTrainerMain \ --master local --files /tmp/myobject.ser --verbose /opt/
阅读全文
摘要:spark yarn集群模式提交遇到的问题 一直请求资源最后失败,后台日志会出现路径不存在等 17/06/22 16:16:49 INFO yarn.Client: Application report for application_1498032012194_0036 (state: ACCEP
阅读全文
摘要:引起这个问题的原因是因为spark没有关闭
阅读全文
摘要:数据预处理与特征工程 缺失值处理 缺失值处理通常有如下的方法: 对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行; 如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法; 可以使
阅读全文
摘要:二元化(Binarization)是通过(选定的)阈值将数值化的特征转换成二进制(0/1)特征表示的过程。 Binarizer(ML提供的二元化方法)二元化涉及的参数有inputCol(输入)、outputCol(输出)以及threshold(阀值)。(输入的)特征值大于阀值将映射为1.0,特征值小
阅读全文
摘要:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 但是,请记住,相关性不等于因果性 两个重要的要素从非常直观的分析思路来说,比如分析身高和体重,我们会问个问题:.身高越高,体重是不是越重?问
阅读全文
摘要:交叉验证应用与各种算法中,用于验证超参数的最优值。 常用的算法有逻辑回归、神经网络、ALS、SVM、决策树等。 Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮
阅读全文
摘要:ALS 是交替最小二乘 (alternating least squares)的简称。在机器学习的上下文中,ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。 用户打分矩阵(行表示商品,列表示用户,每行表示用户对多个商
阅读全文
摘要:特征选择很重要,除了人工选择,还可以用其他机器学习方法,如逻辑回归、随机森林、PCA、LDA等。 分享一下逻辑回归做特征选择 特征选择包括: 特征升维 特征降维 特征升维 如一个样本有少量特征,可以升维,更好的拟合曲线 特征X 升维X/X**2/ 效果验证,做回归 加特征x**2之后的效果 特征X1
阅读全文
摘要:线性回归、逻辑回归可以解决分类问题(二分类、多分类)、回归问题。 主要技术点 线性回归 高斯分布 最大似然估计MLE 最小二乘法的本质Logistic回归 分类问题的首选算法重要技术 梯度下降算法 最大似然估计 特征选择 交叉验证 一、线性回归 y=ax+b (一个变量) 两个变量
阅读全文
摘要:svm是一种分类算法,一般先分为两类,再向多类推广一生二,二生三,三生。。。 大致可分为: 线性可分支持向量机 硬间隔最大化hard margin maximization 硬间隔支持向量机 线性支持向量机 软间隔最大化soft margin maximization 软间隔支持向量机
阅读全文

浙公网安备 33010602011771号