2017年4月6日

kafka常用命令

摘要: kafka版本: kafka_2.11-0.10.2.0 0.10的kafka版本和0.8的比,变动还是很大的。 1、各个命令查看帮助,该命令会显示kafka bin目录下各个shell脚本的参数、参数描述。 bin/xxxx.sh --h 2、查看所有topic bin/kafka-topics. 阅读全文

posted @ 2017-04-06 14:34 小丑鱼快跑 阅读(193) 评论(0) 推荐(0) 编辑

2017年2月19日

parquet文件的一些操作

摘要: /** * 获取schema信息 * @throws IOException */@Testpublic void testGetSchema() throws IOException { Configuration configuration = new Configuration(true); 阅读全文

posted @ 2017-02-19 23:07 小丑鱼快跑 阅读(5292) 评论(0) 推荐(0) 编辑

2017年1月14日

java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from 解决

摘要: 在用spark的yarn-cluster模式跑fpgrowth进行频繁项集挖掘的时候,报如下错误: 1、进行lib目录,发现有多个guava版本 2、修改pom,删除guava依赖,运行,还是报错 3、pom中spark相关jar包都是使用的provide模式,怎么会报错了,纳闷。 4、看下集群中h 阅读全文

posted @ 2017-01-14 12:11 小丑鱼快跑 阅读(25249) 评论(2) 推荐(0) 编辑

knn分类算法学习

摘要: K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对 阅读全文

posted @ 2017-01-14 11:47 小丑鱼快跑 阅读(413) 评论(0) 推荐(0) 编辑

2016年8月2日

七、rdd究竟是什么

摘要: RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法: def getPartitions: Array[Partition] def compute(thePart: Partition, context: TaskContext): Ne 阅读全文

posted @ 2016-08-02 22:23 小丑鱼快跑 阅读(427) 评论(0) 推荐(0) 编辑

六、spark常见问题总结(转载)

摘要: 问题导读 1、当前集群的可用资源不能满足应用程序的需求,怎么解决? 2、内存里堆的东西太多了,有什么好办法吗? 1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito 阅读全文

posted @ 2016-08-02 22:22 小丑鱼快跑 阅读(685) 评论(0) 推荐(0) 编辑

五、RDD持久化

摘要: Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快 阅读全文

posted @ 2016-08-02 22:20 小丑鱼快跑 阅读(2532) 评论(0) 推荐(0) 编辑

四、spark常用函数说明学习

摘要: 1、parallelize 并行集合,切片数。默认为这个程序所分配到的资源的cpu核的个数。 查看大小:rdd.partitions.size sc.paralielize(1 to 100,2) 2、rdd持久化 persist() cache() persist() cache() persis 阅读全文

posted @ 2016-08-02 22:15 小丑鱼快跑 阅读(293) 评论(0) 推荐(0) 编辑

三、spark入门:文本中发现5个最常用的word,排除常用停用词

摘要: package com.yl.wordcountimport java.io.Fileimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.Iteratorimport scala.io.Source/** 阅读全文

posted @ 2016-08-02 22:12 小丑鱼快跑 阅读(1188) 评论(0) 推荐(0) 编辑

二、spark入门之spark shell:文本中发现5个最常用的word

摘要: scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.is 阅读全文

posted @ 2016-08-02 22:07 小丑鱼快跑 阅读(1334) 评论(0) 推荐(0) 编辑

导航