2017 年 9月随笔档案 - 牵牛花

摘要：参考http://developer.51cto.com/art/201403/430986.htm 阅读全文

posted @ 2017-09-17 15:42 牵牛花阅读(364) 评论(0) 推荐(0) 编辑

java.io.IOException: No FileSystem for scheme: hdfs

摘要：解决方案是，在设置hadoop的配置的时候，显示设置这个类："org.apache.hadoop.hdfs.DistributedFileSystem：阅读全文

posted @ 2017-09-16 18:31 牵牛花阅读(819) 评论(0) 推荐(0) 编辑

" java.lang.NoSuchFieldError: HBASE_CLIENT_PREFETCH_LIMIT

摘要：0down vote This issue is caused by the version of hbase-client in your pom differing from the jar versions on the server side. If you're using vendor- 阅读全文

posted @ 2017-09-16 17:59 牵牛花阅读(697) 评论(0) 推荐(0) 编辑

用户活跃度分析

摘要：数据链接：http://pan.baidu.com/s/1cKvqZc 密码：4mcy 阅读全文

posted @ 2017-09-15 17:28 牵牛花阅读(1068) 评论(0) 推荐(0) 编辑

RDD、DataFrame和DataSet

摘要：简述 RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同：DataFrame多了数据的结构信息，即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。作者：jacksu来源：简书|2016-03-2 阅读全文

posted @ 2017-09-15 14:28 牵牛花阅读(262) 评论(0) 推荐(0) 编辑

SQL中的DML、DDL以及DCL是什么?

摘要：DML（data manipulation language）是数据操纵语言：它们是SELECT、UPDATE、INSERT、DELETE，就象它的名字一样，这4条命令是用来对数据库里的数据进行操作的语言。DDL（data definition language）是数据定义语言：DDL比DML要多，阅读全文

posted @ 2017-09-14 19:33 牵牛花阅读(674) 评论(0) 推荐(0) 编辑

递归,尾递归

摘要：def main(args: Array[String]): Unit = { val res1 = fact(4); val res2 = fact2(4,1) println(res1) println(res2) } //递归 def factorial(n:Int):Int={ if(n<=0){ 1 }el... 阅读全文

posted @ 2017-09-14 13:24 牵牛花阅读(116) 评论(0) 推荐(0) 编辑

找出字符串中最长的对称字符串

摘要：public static String reverseStr(String str) { char[] chars = str.toCharArray(); StringBuffer sb = new StringBuffer(); for (int i = chars.length - 1; i >= 0; i--) { ... 阅读全文

posted @ 2017-09-14 10:09 牵牛花阅读(2432) 评论(0) 推荐(0) 编辑

spark 提高

只有注册用户登录后才能阅读该文。

posted @ 2017-09-13 09:51 牵牛花阅读(2) 评论(0) 推荐(0) 编辑

spark 数据倾斜的一些表现

摘要：spark 数据倾斜的一些表现 https://yq.aliyun.com/articles/62541 阅读全文

posted @ 2017-09-12 20:39 牵牛花阅读(200) 评论(0) 推荐(0) 编辑

executor.Executor: Managed memory leak detected; size = 37247642 bytes, TID = 5

摘要：https://stackoverflow.com/questions/34359211/debugging-managed-memory-leak-detected-in-spark-1-6-0 https://stackoverflow.com/questions/33518992/spark- 阅读全文

posted @ 2017-09-12 20:31 牵牛花阅读(2125) 评论(0) 推荐(0) 编辑

jdbc 使用内部类封装

只有注册用户登录后才能阅读该文。

posted @ 2017-09-12 14:12 牵牛花编辑

单例模式

摘要：package my.bigdata.test; /** * 单例模式Demo * * 单例模式是指的什么意思？ * * 我们自己定义的类，其实默认情况下，都是可以让外界的代码随意创建任意多个实例的 * 但是有些时候，我们不希望外界来随意创建实例，而只是希望一个类，在整个程序运行期间，只有一个实例 * 任何外界代码，都不能随意创建实例 * * 那么，要实现单例模式，有几... 阅读全文

posted @ 2017-09-12 13:22 牵牛花阅读(128) 评论(0) 推荐(0) 编辑

hbase的写和读，大合并和小合并

摘要：Hbase写：客户端向hbase服务器端发送写的请求时，hbase会同时进行两个动作，把记录写在WAL(write ahead log)日志文件中,每台服务器所有表都共享这个WAL文件。然后会写到memStore内存中，memStore是内存中的写入缓存区，如果memStore写满就刷新写到硬盘，阅读全文

posted @ 2017-09-09 11:22 牵牛花阅读(3495) 评论(0) 推荐(0) 编辑

自定义kafka Sink

摘要：package my.bigdata; /** * Created by lq on 2017/8/22. */ import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.util.Ma... 阅读全文

posted @ 2017-09-09 09:01 牵牛花阅读(1470) 评论(0) 推荐(0) 编辑

combineByKey

摘要：def test66: Unit = { val initialScores = Array(("Fred", 88.0), ("Fred", 95.0), ("Fred", 91.0), ("Wilma", 93.0), ("Wilma", 95.0), ("Wilma", 98.0)) val conf = new SparkConf().setAppName("wc").... 阅读全文

posted @ 2017-09-08 19:56 牵牛花阅读(194) 评论(0) 推荐(0) 编辑

spark练习题

摘要：现在要对最近7天的日志进行统计,统计结果格式如下,key(date(日期),hour(时间),site(网站))value:(pv (访问次数),uv(独立访问人数,相同的访客id去重))统计结果需要存至Hbase,使用spark写出伪代码阅读全文

posted @ 2017-09-07 12:47 牵牛花阅读(1240) 评论(1) 推荐(0) 编辑

sparkonhbase

摘要：http://blog.csdn.net/UnionIBM/article/details/77850979 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-spark</artifactId> <version> 阅读全文

posted @ 2017-09-07 12:31 牵牛花阅读(537) 评论(2) 推荐(0) 编辑

HDFS只支持文件append操作, 而依赖HDFS的HBase如何完成增删改查功能

摘要：其实HBase/LevelDB等系统，背后都应用了Log-structured merge tree。HBase的写操作有两个步骤：1) 写入HLog(防止宕机丢失数据), 2) 写入对应的Memstore(内存)。当Memstore写满时，其中的数据被flush到HDFS，形成一个新的数据文件(H 阅读全文

posted @ 2017-09-06 09:23 牵牛花阅读(2087) 评论(1) 推荐(0) 编辑

mysql hive sql 进阶

摘要：场景: 说明.1.上面的数据是经过规整的数据,step是连续的,这个可以通过row_number实现.连续是必要的一个条件因为在计算第二个查询条件时依赖这个顺序,如果step不是数字字段可以截取然后转为数字 1、查询每一步骤相对于路径起点人数的比例 2、查询每一步骤相对于上一步骤的漏出率说明1.s 阅读全文

posted @ 2017-09-05 15:34 牵牛花阅读(327) 评论(0) 推荐(0) 编辑

Spark Shuffle 中 JVM 内存使用及配置内幕详情

摘要：本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的阅读全文

posted @ 2017-09-05 11:17 牵牛花阅读(214) 评论(0) 推荐(0) 编辑

spark1.6内存管理

摘要：Spark从1.6.0版本开始，内存管理模块就发生了改变，旧版本的内存管理模块是实现了StaticMemoryManager 类，现在被称为"legacy"。"Legacy"模式默认被置为不可用，这就意味着当你用Spark1.5.x和Spark1.6.x运行相同的代码会有不同的结果，应当多加注意。考阅读全文

posted @ 2017-09-05 11:11 牵牛花阅读(136) 评论(0) 推荐(0) 编辑

maprduce 中reduce数量

摘要：在hadoop 默认的是hashpartitioner,简单的例子是用hashcode除以numPartitions的数量,这样在数据均匀的前提下,数据可以被均匀的分到每个reduce中. 还有一种情况是不按照numPartitions而是根据业务来判断的,比如按照订单的类别,将同一类别的订单数据发阅读全文

posted @ 2017-09-04 16:39 牵牛花阅读(223) 评论(0) 推荐(0) 编辑

Mapreduce 进阶

摘要：场景描述订单需要封装成为一个bean 传入reduce,然后实现排序取出top1,或者分组求和首先要实现排序就要实现comparable接口要实现分组top1,那么"相同的bean"要到同一个reduce中去,要实现自定义partitioner 到了同一个分区之后 "相同的bean"要redu 阅读全文

posted @ 2017-09-04 15:36 牵牛花阅读(163) 评论(0) 推荐(0) 编辑

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io .nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

摘要：首先,遇到这个问题的一个原因是windows环境中没有配置hadoophome.配置之后加入winutils工具第二个原因,pom中执行的hadoop的版本与window环境中的hadoop的版本不一致阅读全文

posted @ 2017-09-04 13:20 牵牛花阅读(1585) 评论(0) 推荐(0) 编辑

hive INSERT OVERWRITE table could not be cleaned up.

摘要：create table maats.account_channel ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED AS TEXTFILE as select distinct a.account,b.channel from maats. 阅读全文

posted @ 2017-09-03 20:32 牵牛花阅读(2155) 评论(0) 推荐(0) 编辑

flume 多chanel配置

摘要：#配置文 a1.sources= r1 a1.sinks= k1 k2 a1.channels= c1 c2 #Describe/configure the source a1.sources.r1.type = avro a1.sources.r1.bind = slave3 a1.sources.r1.port = 50001 a1.sources.r1.hos... 阅读全文

posted @ 2017-09-03 12:23 牵牛花阅读(382) 评论(0) 推荐(0) 编辑

java jar包与配置文件的写法

摘要：一个普通的java project，里面引用了config.properties配置文件，将项目打成Runnable jar，然后将config.properties放到打包后的jar路径下，执行该jar包，出错，原工程中properties文件读取代码如下：上网搜了下class.getResou 阅读全文

posted @ 2017-09-03 11:01 牵牛花阅读(3796) 评论(0) 推荐(0) 编辑

CDH 修改配置注意事项

摘要：cdh 在使用时如果修改了配置文件,需要重启过时服务,而不是重启,重启过时服务才会修改配置文件阅读全文

posted @ 2017-09-03 09:07 牵牛花阅读(991) 评论(0) 推荐(0) 编辑

Scala 闭包

摘要：Scala 闭包闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数： val multiplier = (i:Int) => i * 10 函数体内有一个变量 i，它作为函数的一个参数。如下面阅读全文

posted @ 2017-09-02 06:37 牵牛花阅读(172) 评论(0) 推荐(0) 编辑

Error: Java heap space

摘要：在chd中的hive中执行 (select count (*)) 或者mr程序都报Error: Java heap space 4、io.sort.mb 的作用排序所使用的内存数量。默认值：100M，需要与mapred.child.java.opts相配默认：-Xmx200m。不能超过ma 阅读全文

posted @ 2017-09-01 19:45 牵牛花阅读(758) 评论(0) 推荐(0) 编辑

Spark Streaming 执行流程

摘要：Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程：客户端提交阅读全文

posted @ 2017-09-01 16:25 牵牛花阅读(866) 评论(0) 推荐(0) 编辑

Scala 中的构造器

摘要：Scala上的从构造器也有一定的限制，Scala编程中写道。 “Scala 里的每一个从构造器的第一个动作都是调用同一个类里面其他的构造器。换句话说就是，每个 Scala 类里的每个从构造器都是以“this(...)”形式开头的。被调用的构造器既可以是主构造器（好像 Rational 这个例子），阅读全文

posted @ 2017-09-01 16:15 牵牛花阅读(334) 评论(0) 推荐(0) 编辑

Spark SQL和DataFrames支持的数据格式

摘要：Spark SQL和DataFrames支持的数据格式阅读全文

posted @ 2017-09-01 16:10 牵牛花阅读(212) 评论(0) 推荐(0) 编辑

StreamingContext.getOrCreate

摘要：经过粗略的实验(一个分区)发现,使用了这个方法之后可以实现不丢失数据阅读全文

posted @ 2017-09-01 16:06 牵牛花阅读(1569) 评论(0) 推荐(0) 编辑

Java heap space cdh 5.11.1

摘要：在执行hive count 查询的时候报错:Error: Java heap space 解决办法是 set io.sort.mb=10; 执行hadoop的Exeample的时候报错,也是java heap space 的问题 Diagnostic Messages for this Task:E 阅读全文

posted @ 2017-09-01 13:30 牵牛花阅读(645) 评论(0) 推荐(0) 编辑

ntpd与ntpdate的区别

摘要：之前配置ntpd的时候搜到一句话，印象很深刻，也觉得很有标题党的效果，就借鉴为标题了：“我认为有几种人是必须不招聘/裁掉的： 1 用ntpdate代替ntpd的人”但具体原因不太懂，总觉得还是用ntpdate比较方便。今天问了红帽技术支持，对方的解释是：ntpd在实际同步时间时是一点点的校准过来时间阅读全文

posted @ 2017-09-01 11:52 牵牛花阅读(229) 评论(0) 推荐(0) 编辑

大数据与时间空间

摘要：上面是flume中hdfs sink中的配置,触发生成一个文件的方式主要有两种达到一定时间生成一个文件,文件达到一定大小生成一个文件, 这种时间和空间作为生成文件的判断条件在redis中也有使用阅读全文

posted @ 2017-09-01 09:48 牵牛花阅读(232) 评论(0) 推荐(0) 编辑

牵牛花

09 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论