摘要: CoordinateMatrix坐标矩阵 阅读全文
posted @ 2017-07-21 10:19 亢奋的小马哥 阅读(3013) 评论(0) 推荐(0) 编辑
摘要: package mlimport java.utilimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.linalg.distributed.RowMatriximport org.a 阅读全文
posted @ 2017-07-14 14:39 亢奋的小马哥 阅读(4124) 评论(0) 推荐(0) 编辑
摘要: Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 阅读全文
posted @ 2017-07-06 16:15 亢奋的小马哥 阅读(5653) 评论(0) 推荐(0) 编辑
摘要: 利用poi将excel文件后缀为.xls .xlsx的文件转换成txt/csv文本文件 首先,引入所需的jar包: 完整代码 调用 阅读全文
posted @ 2017-06-30 13:59 亢奋的小马哥 阅读(3484) 评论(0) 推荐(0) 编辑
摘要: 一、概念 KMeans基于划分的聚类方法 给定数据样本集Sample和应该划分的类书K,对样本数据Sample进行聚类,最终形成K个聚类,其相似的度量是某条数据与中心点的“距离”(距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离,欧氏距离也称欧几里得距离,它是在m维空间中两个点之 阅读全文
posted @ 2017-06-30 09:19 亢奋的小马哥 阅读(519) 评论(0) 推荐(0) 编辑
摘要: It could be a resource problem. Try to increase the number of cores and executor and also to assign more RAM to the application then you should increa 阅读全文
posted @ 2017-06-29 15:14 亢奋的小马哥 阅读(9258) 评论(0) 推荐(0) 编辑
摘要: 相比于Hadoop,Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦:Spark保存文件的的函数(如saveAsTextFile)在保存数据时都需要新建一个目录,然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件(而不是增加一个目录) 把分区设置成1个 结果 阅读全文
posted @ 2017-06-28 17:47 亢奋的小马哥 阅读(4456) 评论(0) 推荐(0) 编辑
摘要: spark提交任务 bin/spark-submit --name Test --class com.test.batch.modeltrainer.ModelTrainerMain \ --master local --files /tmp/myobject.ser --verbose /opt/ 阅读全文
posted @ 2017-06-23 09:54 亢奋的小马哥 阅读(1778) 评论(0) 推荐(1) 编辑
摘要: spark yarn集群模式提交遇到的问题 一直请求资源最后失败,后台日志会出现路径不存在等 17/06/22 16:16:49 INFO yarn.Client: Application report for application_1498032012194_0036 (state: ACCEP 阅读全文
posted @ 2017-06-22 18:30 亢奋的小马哥 阅读(3006) 评论(1) 推荐(0) 编辑
摘要: 引起这个问题的原因是因为spark没有关闭 阅读全文
posted @ 2017-06-22 18:26 亢奋的小马哥 阅读(5315) 评论(2) 推荐(0) 编辑