亢奋的小马哥

2017年7月21日

摘要： CoordinateMatrix坐标矩阵阅读全文

posted @ 2017-07-21 10:19 亢奋的小马哥阅读(3013) 评论(0) 推荐(0) 编辑

2017年7月14日

spark 特征选择之FeatureSelectors DataFrame[vector] 转 DataFrame[Row]

摘要： package mlimport java.utilimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.linalg.distributed.RowMatriximport org.a 阅读全文

posted @ 2017-07-14 14:39 亢奋的小马哥阅读(4130) 评论(0) 推荐(0) 编辑

2017年7月6日

SparkSql之DataFrame操作

摘要： Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成阅读全文

posted @ 2017-07-06 16:15 亢奋的小马哥阅读(5659) 评论(0) 推荐(0) 编辑

2017年6月30日

用Java将Excel的xls和xlsx文件转换成csv文件的方法, XLS2CSV, XLSX2CSV

摘要：利用poi将excel文件后缀为.xls .xlsx的文件转换成txt/csv文本文件首先，引入所需的jar包：完整代码调用阅读全文

posted @ 2017-06-30 13:59 亢奋的小马哥阅读(3595) 评论(0) 推荐(0) 编辑

spark机器学习之KMeans算法实现

摘要：一、概念 KMeans基于划分的聚类方法给定数据样本集Sample和应该划分的类书K，对样本数据Sample进行聚类，最终形成K个聚类，其相似的度量是某条数据与中心点的“距离”（距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离，欧氏距离也称欧几里得距离，它是在m维空间中两个点之阅读全文

posted @ 2017-06-30 09:19 亢奋的小马哥阅读(529) 评论(0) 推荐(0) 编辑

2017年6月29日

Spark: Could not find CoarseGrainedScheduler

摘要： It could be a resource problem. Try to increase the number of cores and executor and also to assign more RAM to the application then you should increa 阅读全文

posted @ 2017-06-29 15:14 亢奋的小马哥阅读(9366) 评论(0) 推荐(0) 编辑

2017年6月28日

Spark 把RDD数据保存到hdfs单个文件中，而不是目录

摘要：相比于Hadoop，Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦：Spark保存文件的的函数（如saveAsTextFile）在保存数据时都需要新建一个目录，然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件（而不是增加一个目录）把分区设置成1个结果阅读全文

posted @ 2017-06-28 17:47 亢奋的小马哥阅读(4550) 评论(0) 推荐(0) 编辑

2017年6月23日

spark-submit command-line with --files

摘要： spark提交任务 bin/spark-submit --name Test --class com.test.batch.modeltrainer.ModelTrainerMain \ --master local --files /tmp/myobject.ser --verbose /opt/ 阅读全文

posted @ 2017-06-23 09:54 亢奋的小马哥阅读(1780) 评论(0) 推荐(1) 编辑

2017年6月22日

spark Application report for application_1498032012194_0036 (state: FAILED)

摘要： spark yarn集群模式提交遇到的问题一直请求资源最后失败，后台日志会出现路径不存在等 17/06/22 16:16:49 INFO yarn.Client: Application report for application_1498032012194_0036 (state: ACCEP 阅读全文

posted @ 2017-06-22 18:30 亢奋的小马哥阅读(3011) 评论(1) 推荐(0) 编辑

scheduler.LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerExecutorMetricsUpdate(1,WrappedArray())

摘要：引起这个问题的原因是因为spark没有关闭阅读全文

posted @ 2017-06-22 18:26 亢奋的小马哥阅读(5344) 评论(2) 推荐(0) 编辑

msw0529

公告