2017 年 8月随笔档案 - 牵牛花

spark streaming checkpoint

摘要：Checkpoint机制通过前期对Spark Streaming的理解，我们知道，Spark Streaming应用程序如果不手动停止，则将一直运行下去，在实际中应用程序一般是24小时*7天不间断运行的，因此Streaming必须对诸如系统错误、JVM出错等与程序逻辑无关的错误（failures 阅读全文

posted @ 2017-08-31 19:54 牵牛花阅读(384) 评论(0) 推荐(0) 编辑

scala 基本类型和操作

摘要：基本类型和操作类型说明，与java一致值类型范围 Byte 8位有符号补码整数（-27～27-1） Short 16位有符号补码整数（-215～215-1） Int 32位有符号补码整数（-231～231-1） Long 64位有符号补码整数（-263～263-1） Char 16位无符号Uni 阅读全文

posted @ 2017-08-31 17:10 牵牛花阅读(802) 评论(0) 推荐(0) 编辑

lateral view

摘要：原文地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView# lateral view用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据阅读全文

posted @ 2017-08-31 14:23 牵牛花阅读(594) 评论(0) 推荐(0) 编辑

PV、UV、IP的区别

摘要：PV、UV、IP的区别作者：段漫日期：2010/6/2 23:06:47 网站推广需要一个网站访问统计工具，常用的统计工具有百度统计、51la、量子恒道统计等。网站访问量常用的指标为PV、UV、IP。那么什么是PV、UV和IP，PV、UV、IP的区别是什么？ --首先来看看ip、uv和pv的定义阅读全文

posted @ 2017-08-31 09:12 牵牛花阅读(531) 评论(0) 推荐(0) 编辑

spark streaming从指定offset处消费Kafka数据

摘要：重复这个实验的注意事项 1.首先要知道自己topic ,分区数,checkpoint的文件夹 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 3 --topic t 阅读全文

posted @ 2017-08-30 17:29 牵牛花阅读(5706) 评论(0) 推荐(0) 编辑

kafka demo

摘要：public static void main(String[] args) { Properties props = new Properties(); props.put("bootstrap.servers", "mini1:9092"); props.put("group.id", "test123456"); prop... 阅读全文

posted @ 2017-08-30 15:32 牵牛花阅读(465) 评论(0) 推荐(0) 编辑

junit import org.junit.Test 报错

摘要：由于用的是父-子项目在自项目中各种改都不行,还是报错,而且子项目中明明已经导入了还在报错,后面发现是父项目中的scope是test 注释掉就好了阅读全文

posted @ 2017-08-30 14:17 牵牛花阅读(3021) 评论(0) 推荐(0) 编辑

Parquet

摘要：Parquet是列式存储格式的一种文件类型，列式存储有以下的核心优势: 可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量压缩编码可以降低磁盘存储空间，由于同一列的数据类型是一样的，可以使用更搞笑的压缩编码(例如Run Length Encoding和Delta Encoding)进一步几月阅读全文

posted @ 2017-08-30 11:28 牵牛花阅读(414) 评论(0) 推荐(0) 编辑

kafka0.10

摘要：整理kafka相关的常用命令创建主题（4个分区，2个副本）bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 4 --topic test查询集群描述bin/kafka 阅读全文

posted @ 2017-08-30 10:38 牵牛花阅读(1084) 评论(0) 推荐(0) 编辑

序列化与反序列化,

摘要：序列化与反序列化,使用场景,在spark中executor执行task时的 task类 task被写到文件经过网络传输到达另一个节点然后执行,(移动计算) 阅读全文

posted @ 2017-08-29 18:00 牵牛花阅读(137) 评论(0) 推荐(0) 编辑

kafka 面试题无答案

摘要：kafka节点之间如何复制备份的？ kafka消息是否会丢失？为什么？ kafka最合理的配置是什么？ kafka的leader选举机制是什么？ kafka对硬件的配置有什么要求？ kafka的消息保证有几种方式？作者：半兽人链接：http://orchome.com/kafka/index来源：阅读全文

posted @ 2017-08-29 11:02 牵牛花阅读(3720) 评论(0) 推荐(0) 编辑

JedisConnectionPool scala

摘要：/** * Created by lq on 2017/8/29. */ object JedisConnectionPool { val config = new JedisPoolConfig() //最大连接数 config.setMaxTotal(10) //最大空闲连接数 config.setMaxIdle(5) //当调用borrow object ... 阅读全文

posted @ 2017-08-29 09:37 牵牛花阅读(797) 评论(0) 推荐(1) 编辑

output-operations-on-dstreams

摘要：http://spark.apache.org/docs/1.6.1/streaming-programming-guide.html#output-operations-on-dstreams 阅读全文

posted @ 2017-08-29 09:28 牵牛花阅读(164) 评论(0) 推荐(0) 编辑

kafka 怎么保证的exactly once

摘要：Kafka auto.offset.reset值详解发表于2017/7/6 11:25:22 1010人阅读分类： Kafka 昨天在写一个java消费kafka数据的实例，明明设置auto.offset.reset为earliest，但还是不从头开始消费，官网给出的含义太抽象了。 earlie 阅读全文

posted @ 2017-08-28 17:12 牵牛花阅读(1790) 评论(0) 推荐(0) 编辑

Message Delivery Semantics

摘要：4.6 Message Delivery Semantics Now that we understand a little about how producers and consumers work, let's discuss the semantic guarantees Kafka pro 阅读全文

posted @ 2017-08-28 15:42 牵牛花阅读(315) 评论(0) 推荐(0) 编辑

SimpleDateFormat的线程安全问题与解决方案

摘要：SimpleDateFormat的线程安全问题与解决方案总结,当sdf为static的时候,多个对象共享一个sdf的变量,sdf 的parse方法执行的时候里面记录值得在线程内部是顺序执行的,所有一个线程里面使用一个sdf不存在线程会被另一个线程影响的问题阅读全文

posted @ 2017-08-28 14:29 牵牛花阅读(759) 评论(0) 推荐(0) 编辑

Nio中文API

摘要：https://leocook.gitbooks.io/java-nio-programming-guide/content/ 阅读全文

posted @ 2017-08-28 14:21 牵牛花阅读(168) 评论(0) 推荐(0) 编辑

if的另一个实现思路

摘要：在一些场景中需要根据根据一个传入的额值来做不同的处理,而且if有很多层,此时如果一直写if代码就会雍容.一种比较好的方法就是写一个map列出与if对应的情况,然后map的value就能放一些方法或者其他变量. 没有出现if但是得到了if的效果,如果有else的话,那就是map.get(key)的情况阅读全文

posted @ 2017-08-27 16:49 牵牛花阅读(282) 评论(0) 推荐(0) 编辑

留存用户的统计

摘要：很多用户对留存的计算有疑问，下面较详细的解释了日/周/月留存数据的算法，有任何问题，欢迎跟帖讨论什么是留存用户？某段时间内的新增用户，经过一段时间后，仍继续使用应用的被认作是留存用户，这部分用户占当时新增用户的比例即时留存率。统计留存用户的时间粒度有哪些？自然日：包括1天后、2天后、3天后、4天后、阅读全文

posted @ 2017-08-27 14:15 牵牛花阅读(556) 评论(0) 推荐(0) 编辑

Accumulator

摘要：Accumulator简介 Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spa 阅读全文

posted @ 2017-08-26 22:28 牵牛花阅读(815) 评论(0) 推荐(0) 编辑

spark.Accumulator

摘要：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.Accumulator 阅读全文

posted @ 2017-08-26 21:38 牵牛花阅读(254) 评论(0) 推荐(0) 编辑

maven 打包如何将依赖打进来

摘要：阿斯蒂芬阅读全文

posted @ 2017-08-26 17:50 牵牛花阅读(832) 评论(0) 推荐(0) 编辑

hive 进阶笔记

摘要：场景描述,在hive中需要一张中间表,比如一个已知设备库,但是随着用户的增加,设备库是要数据量谁要增加的,(insert新的数据,保留已有的数据).然后在业务中使用解决方案,第一次create select ,之后每次都 insert into select ,这是select 的就很关键,这个s 阅读全文

posted @ 2017-08-26 17:08 牵牛花编辑

java获取当月的第一天和最后一天,获取本周的第一天和最后一天

摘要：java获取当月的第一天和最后一天,获取本周的第一天和最后一天使用场景,计算日活跃,周活跃,月活跃是的日期计算阅读全文

posted @ 2017-08-26 14:58 牵牛花阅读(16339) 评论(0) 推荐(0) 编辑

hbase中double类型数据做累加

摘要：以上对long类型数据的累加,double类型的数据累加是将double类型*10000,这样将double转成一个long类型的数字进行累加,使用这种方法时要注意控制double类型数据的精度阅读全文

posted @ 2017-08-26 14:34 牵牛花阅读(1097) 评论(0) 推荐(0) 编辑

kafka的分区模式？

摘要：当别人问这个问题的时候，别人肯定是想你是否看过源码。是否针对不同场景改过kafka的分区模式这是别人最想知道的是，你的message如何负载均衡的发送给topic的partition 我们用kafka的时候，可以动态指定partition，也可以不指定partition 当我们动态指定了partition的时候，kafka会将消息发送到指定的partition 如果没有指定partition ... 阅读全文

posted @ 2017-08-25 21:02 牵牛花阅读(409) 评论(0) 推荐(0) 编辑

hive 定时加载分区

摘要：#!/bin/bash#每天定时位外部表加载分区#服务器当天的时间#加载环境变量source /etc/profile;#如果没有指定日期用当前日期如果指定的日期使用指定的日期echo 'starting...'if [ -z $1 ] then curdate=`date +%Y%m%d`else 阅读全文

posted @ 2017-08-24 21:51 牵牛花编辑

在shell 中字符串,文件,数字的比较

摘要：在shell中如何判断HDFS中的文件目录是否存在阅读全文

posted @ 2017-08-24 19:19 牵牛花阅读(279) 评论(0) 推荐(0) 编辑

idea中maven依赖不能下载的解决办法

摘要：使用maven 命令 maven install 在项目所在文件夹执行. 阅读全文

posted @ 2017-08-23 14:42 牵牛花阅读(1406) 评论(0) 推荐(0) 编辑

Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{use:database=default}) (state=08S01,code=0)

摘要：sparksql 2.和hive2.1.1 由于sparksql中的hive-cli 等包的版本是1.2的需要自己下载,下载替换之后不报错,替换之前做好备份阅读全文

posted @ 2017-08-23 12:40 牵牛花阅读(4376) 评论(0) 推荐(1) 编辑

SparkSQL ThriftServer服务的使用和程序中JDBC的连接

摘要：SparkSQL ThriftServer服务的使用和程序中JDBC的连接此时要注意版本问题,我第一次用的是hive2.1.1的,因为要用sparksql的hive服务,但是sparksql默认的是1.2的,在替换了下面四个包之后 hive-beeline-1.2.1.spark2.jar hiv 阅读全文

posted @ 2017-08-23 11:18 牵牛花阅读(973) 评论(0) 推荐(0) 编辑

hbase常用命令

摘要：要注意shutdown与exit之间的不同：shutdown表示关闭hbase服务，必须重新启动hbase才可以恢复，exit只是退出hbase shell,退出之后完全可以重新进入。 hbase使用坐标来定位表中的数据，行健是第一个坐标，下一个坐标是列族。 hbase是一个在线系统，和hadoop 阅读全文

posted @ 2017-08-21 17:26 牵牛花阅读(387) 评论(0) 推荐(0) 编辑

hbase计数器

摘要：1 计数器计数器可以方便、快速地进行计数操作，而且避免了加锁等保证了原子性的操作。 1.1 Java API 操作 HBase 计数器 public Result increment(final Increment increment) public long incrementColumnVal 阅读全文

posted @ 2017-08-21 17:26 牵牛花阅读(386) 评论(0) 推荐(0) 编辑

object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord)

摘要：3. object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord) val stream = KafkaUtils.createDirectStream[String, String]( ssc, 阅读全文

posted @ 2017-08-21 17:05 牵牛花阅读(2755) 评论(0) 推荐(0) 编辑

Kafka消息模拟器

摘要：package clickstream import java.util.{Properties, Random, UUID} import kafka.producer.{KeyedMessage, Producer, ProducerConfig} import org.codehaus.jettison.json.JSONObject /** * Created by 郭飞 on 2... 阅读全文

posted @ 2017-08-21 15:41 牵牛花阅读(988) 评论(0) 推荐(0) 编辑

flume sourcetype avro http

摘要：flume 当sourcetype=http的时候可以用 curl -X POST -d '[{"headers" :{"APPSTORE" : "qq"},"body" :"CZ"}]' http://mini1:50000 当sourcetype=avro的时候,第一种来源是上一个flume,第阅读全文

posted @ 2017-08-21 13:36 牵牛花阅读(279) 评论(0) 推荐(0) 编辑

echart 地图

摘要：Hello World! 阅读全文

posted @ 2017-08-19 22:28 牵牛花阅读(454) 评论(0) 推荐(0) 编辑

mybatis中如果存在参数不再实体中的是如何处理

摘要：阅读全文

posted @ 2017-08-19 21:18 牵牛花阅读(439) 评论(0) 推荐(0) 编辑

简易web项目jdbcUtil

摘要：注意val后面不能用空格,就因为有空格坑了我两个小时阅读全文

posted @ 2017-08-19 11:01 牵牛花阅读(407) 评论(0) 推荐(0) 编辑

INSERT 中ON DUPLICATE KEY UPDATE的使用

摘要：使用场景,在做全国各省ip访问统计时要将sparkStreaming的数据存在mysql中,按照一般设计,id,province,counts,time,这样就需要每次清空表,但是如果多分区的话就存在删除表的时候回出现后一个分区可能把前一个分区的数据删除掉,当然最好的办法是每次都只更新而不删除,但是阅读全文

posted @ 2017-08-18 23:33 牵牛花阅读(45910) 评论(0) 推荐(0) 编辑

redis 最优雅的错误提示

摘要：Exception in thread "main" redis.clients.jedis.exceptions.JedisDataException: DENIED Redis is running in protected mode because protected mode is enab 阅读全文

posted @ 2017-08-18 18:10 牵牛花阅读(588) 评论(0) 推荐(0) 编辑

Error reading field 'throttle_time_ms': java.nio.BufferUnderflowException

摘要：可能出现的问题：注意事项： http://www.nilday.com/2016/12/ 阅读全文

posted @ 2017-08-18 01:53 牵牛花阅读(864) 评论(0) 推荐(0) 编辑

Spark运行模式概述

摘要：Spark运行模式概述阅读全文

posted @ 2017-08-17 17:24 牵牛花阅读(171) 评论(0) 推荐(0) 编辑

Spark下的PageRank实现

摘要：Spark下的PageRank实现阅读全文

posted @ 2017-08-17 17:20 牵牛花阅读(403) 评论(0) 推荐(0) 编辑

造数据时踏过的坑

摘要：1.在产生随机数时,在数据规模很大的时候很难出现自己要的模型,比如某个条件的数据量,此时要写一个方法,来造一批这样的数据 2.将控制数量,文件路径写成配置文件的形式,以免重复打包 3.输入输出文件夹,可以配置以免重复打包阅读全文

posted @ 2017-08-17 01:12 牵牛花阅读(148) 评论(0) 推荐(0) 编辑

jsonp爬取页面

摘要：jsonp http://blog.csdn.net/column/details/jsoup.html 阅读全文

posted @ 2017-08-16 23:30 牵牛花阅读(1146) 评论(0) 推荐(0) 编辑

Hadoop 回收站

摘要：一、回收站简介：在HDFS里，删除文件时，不会真正的删除，其实是放入回收站/trash，回收站里的文件可以快速恢复。可以设置一个时间阀值，当回收站里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的数据块。二、实例： Hadoop的回收站trash功能默认是关闭的阅读全文

posted @ 2017-08-16 19:32 牵牛花阅读(261) 评论(0) 推荐(0) 编辑

Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析

摘要：Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析阅读全文

posted @ 2017-08-16 14:43 牵牛花阅读(841) 评论(0) 推荐(0) 编辑

spark streaming updateStateByKey 用法

摘要：spark streaming updateStateByKey 用法阅读全文

posted @ 2017-08-16 10:51 牵牛花阅读(300) 评论(0) 推荐(0) 编辑

spark streaming 直连 kafka 分区

摘要：spark streaming kafka1.4.1中的低阶api createDirectStream使用总结阅读全文

posted @ 2017-08-15 13:33 牵牛花阅读(622) 评论(0) 推荐(0) 编辑

sparkStreaming 练习

摘要：val updateFunc2 = (iter:Iterator[(String,Seq[Int],Option[Int])])=>{ iter.map{case (x,y,z) => //由于Some的get方法得到的还是一个Some.所以这里要在用一个get方法 //,如果最开始的时候用的时flatmap那么这里就不用调用get方法,这里可以推测出Flat... 阅读全文

posted @ 2017-08-15 10:39 牵牛花阅读(277) 评论(0) 推荐(0) 编辑

json demo

摘要：package my.bigdata.movieTask.action; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import java.util.ArrayList; import java.util.Ha... 阅读全文

posted @ 2017-08-14 22:44 牵牛花阅读(727) 评论(0) 推荐(0) 编辑

spark与flume整合

摘要：spark-streaming与flume整合 push http://spark.apache.org/docs/1.6.3/streaming-flume-integration.html 阅读全文

posted @ 2017-08-14 13:44 牵牛花阅读(1447) 评论(0) 推荐(0) 编辑

spark sql 入门

摘要：如何在命令行中使用sparksql 阅读全文

posted @ 2017-08-14 11:24 牵牛花阅读(240) 评论(0) 推荐(0) 编辑

Parallelism , Partitioner

摘要：转：spark通过合理设置spark.default.parallelism参数提高执行效率 spark中有partition的概念（和slice是同一个概念，在spark1.2中官网已经做出了说明），一般每个partition对应一个task。在我的测试过程中，如果没有设置spark.defaul 阅读全文

posted @ 2017-08-13 16:56 牵牛花阅读(297) 评论(0) 推荐(0) 编辑

编译hadoop,spark遇到的问题总结

摘要：编译hadoop2.6.4 1、JDK8版本过高，换成JDK7； 2、换成命令行mvn package -Pdist,native -DskipTests-Dtar-Dmaven.javadoc.skip=true 注意：检查命令中-符号，而不是中文—，-Dmaven.javadoc.skip=tr 阅读全文

posted @ 2017-08-13 09:31 牵牛花阅读(281) 评论(0) 推荐(0) 编辑

scala,spark练习题提高

摘要：1.求每家公司有哪些产品 2.验证par方法 case 的另一种使用场景阅读全文

posted @ 2017-08-12 17:03 牵牛花阅读(1298) 评论(0) 推荐(0) 编辑

元组复杂例子

摘要：def test4(): Unit = { val conf = new SparkConf().setAppName("WC").setMaster("local[2]") val sc = new SparkContext(conf) val arr = List(("Apache" -> "Spark"), ("Apache" -> "Kafka"), ("Orac... 阅读全文

posted @ 2017-08-11 21:47 牵牛花阅读(270) 评论(0) 推荐(0) 编辑

sparksql 操作hive

摘要：写在前面:hive的版本是1.2.1spark的版本是1.6.x http://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive-tables 查看hive和spark版本对应情况 SparkSQL操作Hive中的表数据spark 阅读全文

posted @ 2017-08-11 13:02 牵牛花阅读(19609) 评论(0) 推荐(0) 编辑

[转]Phoenix综述（史上最全Phoenix中文文档）

摘要：Phoenix综述（史上最全Phoenix中文文档）阅读全文

posted @ 2017-08-10 09:57 牵牛花阅读(600) 评论(0) 推荐(0) 编辑

CentOS7 上systemctl

摘要：CentOS 7 上systemctl 的用法 [日期：2014-11-10] 来源：Linux社区作者：Linux [字体：大中小] 我们对service和chkconfig两个命令都不陌生，systemctl 是管制服务的主要工具，它整合了chkconfig 与 service功能于一体。 systemctl is-enabled iptables.service ... 阅读全文

posted @ 2017-08-10 09:12 牵牛花阅读(197) 评论(0) 推荐(0) 编辑

mr中间结果优化

摘要：转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9187721 作为输入当压缩文件做为mapreduce的输入时，mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时，阅读全文

posted @ 2017-08-09 19:25 牵牛花阅读(260) 评论(0) 推荐(0) 编辑

spark读取本地文件

摘要：由spark的源码源码的注释可以知道,spark可以读取本地数据文件,但是需要在所有的节点都有这个数据文件(亲测,在有三个节点的集群中,只在master中有这个数据文件时执行textFile方法一直报找不到文件, 在另外两个work中复制这个文件之后,就可以读取文件了) 阅读全文

posted @ 2017-08-09 14:26 牵牛花阅读(14507) 评论(0) 推荐(0) 编辑

spark读取gz文件

摘要：spark 1.5.1是支持直接读取gz格式的压缩包的，和普通文件没有什么区别：使用spark-shell进入spark shell 交互界面：输入命令： sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println) 回车后是可以阅读全文

posted @ 2017-08-09 11:24 牵牛花阅读(2506) 评论(0) 推荐(0) 编辑

phoenix 入门

摘要：http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html Blah, blah, blah - I just want to get started!Ok, great! Just follow our install instruct 阅读全文

posted @ 2017-08-09 10:03 牵牛花阅读(273) 评论(0) 推荐(0) 编辑

Hbase脚本小结

摘要：脚本使用小结： 1.开启集群，start-hbase.sh 2.关闭集群，stop-hbase.sh 3.开启/关闭所有的regionserver、zookeeper，hbase-daemons.sh start/stop regionserver/zookeeper 4.开启/关闭单个region 阅读全文

posted @ 2017-08-09 09:08 牵牛花阅读(502) 评论(0) 推荐(0) 编辑

org.apache.hadoop.hbase.DoNotRetryIOException: Class org.apache.phoenix.coprocessor.MetaDataEndpointImpl cannot be loaded Set hbase.table.sanity.checks to false at conf or table descriptor if you want

摘要：https://stackoverflow.com/questions/38495331/apache-phoenix-unable-to-connect-to-hbase 这个坑不该啊首选配置hbase 集群是按照官网配置的配置phoenix 是按照官网上配置的,结果就是报错了,看了stock 阅读全文

posted @ 2017-08-09 01:21 牵牛花阅读(5370) 评论(0) 推荐(0) 编辑

RDD缓存学习

摘要：首先实现rdd缓存准备了500M的数据 10份,每份 100万条,存在hdfs 中通过sc.textFile方法读取 val rdd1 = sc.textFile("hdfs://mini1:9000/spark/input/visitlog").cache 在启动spark集群模式时分配内存2g 阅读全文

posted @ 2017-08-08 10:55 牵牛花阅读(350) 评论(0) 推荐(0) 编辑

scala flatMap reduceLeft foldLeft

摘要：result: List(2, 4, a, b) List(2, 4, List(a, b)) flatMap就是在Map的基础上加了压平flatten的功能 foldLeft 从左边起折叠,累加 https://alvinalexander.com/scala/scala-reduceleft-e 阅读全文

posted @ 2017-08-07 23:05 牵牛花阅读(540) 评论(0) 推荐(0) 编辑

scala Wordcount

摘要：package my.bigdata.scala08import scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scala.io.Source/** scala word count * Created by lq on 2017/8/7. */object Task2 { /** ... 阅读全文

posted @ 2017-08-07 22:36 牵牛花阅读(297) 评论(0) 推荐(0) 编辑

spark mysql读写

摘要：val data2Mysql2 = (iterator: Iterator[(String, Int)]) => { var conn: Connection = null; var ps: PreparedStatement = null val sql = "Insert into location_info(location,counts,accesse_date)... 阅读全文

posted @ 2017-08-07 10:12 牵牛花阅读(259) 评论(0) 推荐(0) 编辑

scala 测试类

摘要：class NetworkUtilTest extends FunSuite with Matchers { test("testIp2Int") { val ip = NetworkUtil.ip2Int("192.168.120.60") ip should be(1014540480) }} org.scalatest ... 阅读全文

posted @ 2017-08-07 09:43 牵牛花阅读(501) 评论(0) 推荐(0) 编辑

spark源码 hashpartitioner

摘要：def nonNegativeMod(x: Int, mod: Int): Int = { val rawMod = x % mod rawMod + (if (rawMod 0 case _ => Utils.nonNegativeMod(key.hashCode, numPartitions) } 阅读全文

posted @ 2017-08-06 11:29 牵牛花阅读(289) 评论(0) 推荐(0) 编辑

hive 中与mysql 中函数同名不同意的方法记录

摘要：max 函数在hive中max函数是一个聚合函数,所以,而且返回值是double ,而且后面必须跟group by ,这个和mysql差异很大 Built-in Aggregate Functions (UDAF) DOUBLEmax(col)Returns the maximum value o 阅读全文

posted @ 2017-08-05 20:43 牵牛花阅读(321) 评论(0) 推荐(0) 编辑

mysql client中使用帮助命令

摘要：当前MySQL服务器的版本号使用那个命令来参看MySQL的帮助信息帮助主题供我们查看. 命令为: ? contents 例如查看max方法的使用方法则输入? max即可这个在navcat中是不支持的阅读全文

posted @ 2017-08-05 20:29 牵牛花阅读(549) 评论(0) 推荐(0) 编辑

scala中计算的的一个小问题,超出Int.maxValue时不会报错

摘要：如果小于Int.max时他不会报错 721011081081118251528962147483647 阅读全文

posted @ 2017-08-04 16:59 牵牛花阅读(414) 评论(0) 推荐(0) 编辑

java中,scala中代码检测当前环境的版本

摘要：核心代码阅读全文

posted @ 2017-08-04 10:05 牵牛花阅读(893) 评论(0) 推荐(0) 编辑

Flume Channel Selectors + kafka

摘要：http://flume.apache.org/FlumeUserGuide.html#custom-channel-selector 官方文档上channel selectors 有两种类型: Replicating Channel Selector (default) Multiplexing 阅读全文

posted @ 2017-08-04 09:44 牵牛花阅读(774) 评论(0) 推荐(0) 编辑

flume+kafka

摘要：这里演示在单机fulume环境下,kafka作为source ,chanel , sink时三种情况下面的测试都是基于下面的基本的配置文件进行修改的 kafka作为source时的配置和produce程序 kafka作为channel时 ,topic必须是一个新的topic如果topic中存在数据阅读全文

posted @ 2017-08-03 14:57 牵牛花阅读(339) 评论(0) 推荐(0) 编辑

求两个有序数组的中位数-算法导论

摘要：http://www.acmerblog.com/median-of-two-sorted-arrays-5967.html 阅读全文

posted @ 2017-08-03 12:36 牵牛花阅读(132) 评论(0) 推荐(0) 编辑

hadoop onekey_step2

摘要：链接：https://pan.baidu.com/s/1i5KKewd 密码：gjaj 阅读全文

posted @ 2017-08-03 09:25 牵牛花阅读(244) 评论(0) 推荐(0) 编辑

java 新特性学习笔记

摘要：java 1.7 阅读全文

posted @ 2017-08-02 13:34 牵牛花阅读(127) 评论(0) 推荐(0) 编辑

Can't zip RDDs with unequal numbers of partitions

摘要：http://lxw1234.com/archives/2015/07/350.htm java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null 阅读全文

posted @ 2017-08-02 09:47 牵牛花阅读(833) 评论(0) 推荐(0) 编辑

牵牛花

08 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论