09 2017 档案

摘要:参考http://developer.51cto.com/art/201403/430986.htm 阅读全文
posted @ 2017-09-17 15:42 牵牛花 阅读(364) 评论(0) 推荐(0) 编辑
摘要:解决方案是,在设置hadoop的配置的时候,显示设置这个类:"org.apache.hadoop.hdfs.DistributedFileSystem: 阅读全文
posted @ 2017-09-16 18:31 牵牛花 阅读(819) 评论(0) 推荐(0) 编辑
摘要:0down vote This issue is caused by the version of hbase-client in your pom differing from the jar versions on the server side. If you're using vendor- 阅读全文
posted @ 2017-09-16 17:59 牵牛花 阅读(697) 评论(0) 推荐(0) 编辑
摘要:数据链接:http://pan.baidu.com/s/1cKvqZc 密码:4mcy 阅读全文
posted @ 2017-09-15 17:28 牵牛花 阅读(1068) 评论(0) 推荐(0) 编辑
摘要:简述 RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。 作者:jacksu来源:简书|2016-03-2 阅读全文
posted @ 2017-09-15 14:28 牵牛花 阅读(262) 评论(0) 推荐(0) 编辑
摘要:DML(data manipulation language)是数据操纵语言:它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言。DDL(data definition language)是数据定义语言:DDL比DML要多, 阅读全文
posted @ 2017-09-14 19:33 牵牛花 阅读(674) 评论(0) 推荐(0) 编辑
摘要:def main(args: Array[String]): Unit = { val res1 = fact(4); val res2 = fact2(4,1) println(res1) println(res2) } //递归 def factorial(n:Int):Int={ if(n<=0){ 1 }el... 阅读全文
posted @ 2017-09-14 13:24 牵牛花 阅读(116) 评论(0) 推荐(0) 编辑
摘要:public static String reverseStr(String str) { char[] chars = str.toCharArray(); StringBuffer sb = new StringBuffer(); for (int i = chars.length - 1; i >= 0; i--) { ... 阅读全文
posted @ 2017-09-14 10:09 牵牛花 阅读(2432) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-09-13 09:51 牵牛花 阅读(2) 评论(0) 推荐(0) 编辑
摘要:spark 数据倾斜的一些表现 https://yq.aliyun.com/articles/62541 阅读全文
posted @ 2017-09-12 20:39 牵牛花 阅读(200) 评论(0) 推荐(0) 编辑
摘要:https://stackoverflow.com/questions/34359211/debugging-managed-memory-leak-detected-in-spark-1-6-0 https://stackoverflow.com/questions/33518992/spark- 阅读全文
posted @ 2017-09-12 20:31 牵牛花 阅读(2125) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-09-12 14:12 牵牛花 编辑
摘要:package my.bigdata.test; /** * 单例模式Demo * * 单例模式是指的什么意思? * * 我们自己定义的类,其实默认情况下,都是可以让外界的代码随意创建任意多个实例的 * 但是有些时候,我们不希望外界来随意创建实例,而只是希望一个类,在整个程序运行期间,只有一个实例 * 任何外界代码,都不能随意创建实例 * * 那么,要实现单例模式,有几... 阅读全文
posted @ 2017-09-12 13:22 牵牛花 阅读(128) 评论(0) 推荐(0) 编辑
摘要:Hbase写: 客户端向hbase服务器端发送写的请求时,hbase会同时进行两个动作,把记录写在WAL(write ahead log)日志文件中,每台服务器所有表都共享这个WAL文件。然后会写到memStore内存中,memStore是内存中的写入缓存区,如果memStore写满就刷新写到硬盘, 阅读全文
posted @ 2017-09-09 11:22 牵牛花 阅读(3495) 评论(0) 推荐(0) 编辑
摘要:package my.bigdata; /** * Created by lq on 2017/8/22. */ import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.util.Ma... 阅读全文
posted @ 2017-09-09 09:01 牵牛花 阅读(1470) 评论(0) 推荐(0) 编辑
摘要:def test66: Unit = { val initialScores = Array(("Fred", 88.0), ("Fred", 95.0), ("Fred", 91.0), ("Wilma", 93.0), ("Wilma", 95.0), ("Wilma", 98.0)) val conf = new SparkConf().setAppName("wc").... 阅读全文
posted @ 2017-09-08 19:56 牵牛花 阅读(194) 评论(0) 推荐(0) 编辑
摘要:现在要对最近7天的日志进行统计,统计结果格式如下,key(date(日期),hour(时间),site(网站))value:(pv (访问次数),uv(独立访问人数,相同的访客id去重))统计结果需要存至Hbase,使用spark写出伪代码 阅读全文
posted @ 2017-09-07 12:47 牵牛花 阅读(1240) 评论(1) 推荐(0) 编辑
摘要:http://blog.csdn.net/UnionIBM/article/details/77850979 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-spark</artifactId> <version> 阅读全文
posted @ 2017-09-07 12:31 牵牛花 阅读(537) 评论(2) 推荐(0) 编辑
摘要:其实HBase/LevelDB等系统,背后都应用了Log-structured merge tree。HBase的写操作有两个步骤:1) 写入HLog(防止宕机丢失数据), 2) 写入对应的Memstore(内存)。当Memstore写满时,其中的数据被flush到HDFS,形成一个新的数据文件(H 阅读全文
posted @ 2017-09-06 09:23 牵牛花 阅读(2087) 评论(1) 推荐(0) 编辑
摘要:场景: 说明.1.上面的数据是经过规整的数据,step是连续的,这个可以通过row_number实现.连续是必要的一个条件因为在计算第二个查询条件时依赖这个顺序,如果step不是数字字段可以截取然后转为数字 1、查询每一步骤相对于路径起点人数的比例 2、查询每一步骤相对于上一步骤的漏出率 说明1.s 阅读全文
posted @ 2017-09-05 15:34 牵牛花 阅读(327) 评论(0) 推荐(0) 编辑
摘要:本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 阅读全文
posted @ 2017-09-05 11:17 牵牛花 阅读(214) 评论(0) 推荐(0) 编辑
摘要:Spark从1.6.0版本开始,内存管理模块就发生了改变,旧版本的内存管理模块是实现了StaticMemoryManager 类,现在被称为"legacy"。"Legacy"模式默认被置为不可用,这就意味着当你用Spark1.5.x和Spark1.6.x运行相同的代码会有不同的结果,应当多加注意。考 阅读全文
posted @ 2017-09-05 11:11 牵牛花 阅读(136) 评论(0) 推荐(0) 编辑
摘要:在hadoop 默认的是hashpartitioner,简单的例子是用hashcode除以numPartitions的数量,这样在数据均匀的前提下,数据可以被均匀的分到每个reduce中. 还有一种情况是不按照numPartitions而是根据业务来判断的,比如按照订单的类别,将同一类别的订单数据发 阅读全文
posted @ 2017-09-04 16:39 牵牛花 阅读(223) 评论(0) 推荐(0) 编辑
摘要:场景描述 订单需要封装成为一个bean 传入reduce,然后实现排序取出top1,或者分组求和 首先要实现排序就要实现comparable接口 要实现分组top1,那么"相同的bean"要到同一个reduce中去,要实现自定义partitioner 到了同一个分区之后 "相同的bean"要redu 阅读全文
posted @ 2017-09-04 15:36 牵牛花 阅读(163) 评论(0) 推荐(0) 编辑
摘要:首先,遇到这个问题的一个原因是windows环境中没有配置hadoophome.配置之后加入winutils工具 第二个原因,pom中执行的hadoop的版本与window环境中的hadoop的版本不一致 阅读全文
posted @ 2017-09-04 13:20 牵牛花 阅读(1585) 评论(0) 推荐(0) 编辑
摘要:create table maats.account_channel ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED AS TEXTFILE as select distinct a.account,b.channel from maats. 阅读全文
posted @ 2017-09-03 20:32 牵牛花 阅读(2155) 评论(0) 推荐(0) 编辑
摘要:#配置文 a1.sources= r1 a1.sinks= k1 k2 a1.channels= c1 c2 #Describe/configure the source a1.sources.r1.type = avro a1.sources.r1.bind = slave3 a1.sources.r1.port = 50001 a1.sources.r1.hos... 阅读全文
posted @ 2017-09-03 12:23 牵牛花 阅读(382) 评论(0) 推荐(0) 编辑
摘要:一个普通的java project,里面引用了config.properties配置文件,将项目打成Runnable jar,然后将config.properties放到打包后的jar路径下,执行该jar包,出错,原工程中properties文件读取代码如下: 上网搜了下class.getResou 阅读全文
posted @ 2017-09-03 11:01 牵牛花 阅读(3796) 评论(0) 推荐(0) 编辑
摘要:cdh 在使用时如果修改了配置文件,需要重启过时服务,而不是重启,重启过时服务才会修改配置文件 阅读全文
posted @ 2017-09-03 09:07 牵牛花 阅读(991) 评论(0) 推荐(0) 编辑
摘要:Scala 闭包 闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。 闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。 如下面这段匿名的函数: val multiplier = (i:Int) => i * 10 函数体内有一个变量 i,它作为函数的一个参数。如下面 阅读全文
posted @ 2017-09-02 06:37 牵牛花 阅读(172) 评论(0) 推荐(0) 编辑
摘要:在chd中 的hive中执行 (select count (*)) 或者mr程序都报Error: Java heap space 4、io.sort.mb 的作用 排序所使用的内存数量。 默认值:100M,需要与mapred.child.java.opts相配 默认:-Xmx200m。 不能超过ma 阅读全文
posted @ 2017-09-01 19:45 牵牛花 阅读(758) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 本节描述了Spark Streaming作业的执行流程。 图1 Spark Streaming作业的执行流程 具体流程: 客户端提交 阅读全文
posted @ 2017-09-01 16:25 牵牛花 阅读(866) 评论(0) 推荐(0) 编辑
摘要:Scala上的从构造器也有一定的限制,Scala编程中写道。 “Scala 里的每一个从构造器的第一个动作都是调用同一个类里面其他的构造器。换句话说 就是,每个 Scala 类里的每个从构造器都是以“this(...)”形式开头的。被调用的构造器既可以是主构造器(好像 Rational 这个例子), 阅读全文
posted @ 2017-09-01 16:15 牵牛花 阅读(334) 评论(0) 推荐(0) 编辑
摘要:Spark SQL和DataFrames支持的数据格式 阅读全文
posted @ 2017-09-01 16:10 牵牛花 阅读(212) 评论(0) 推荐(0) 编辑
摘要:经过粗略的实验(一个分区)发现,使用了这个方法之后可以实现不丢失数据 阅读全文
posted @ 2017-09-01 16:06 牵牛花 阅读(1569) 评论(0) 推荐(0) 编辑
摘要:在执行hive count 查询的时候报错:Error: Java heap space 解决办法是 set io.sort.mb=10; 执行hadoop的Exeample的时候报错,也是java heap space 的问题 Diagnostic Messages for this Task:E 阅读全文
posted @ 2017-09-01 13:30 牵牛花 阅读(645) 评论(0) 推荐(0) 编辑
摘要:之前配置ntpd的时候搜到一句话,印象很深刻,也觉得很有标题党的效果,就借鉴为标题了:“我认为有几种人是必须不招聘/裁掉的: 1 用ntpdate代替ntpd的人”但具体原因不太懂,总觉得还是用ntpdate比较方便。今天问了红帽技术支持,对方的解释是:ntpd在实际同步时间时是一点点的校准过来时间 阅读全文
posted @ 2017-09-01 11:52 牵牛花 阅读(229) 评论(0) 推荐(0) 编辑
摘要:上面是flume中hdfs sink中的配置,触发生成一个文件的方式主要有两种达到一定时间生成一个文件,文件达到一定大小生成一个文件, 这种时间和空间作为生成文件的判断条件在redis中也有使用 阅读全文
posted @ 2017-09-01 09:48 牵牛花 阅读(232) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示