凌-风 - 博客园

2017年7月26日

摘要：转载：http://www.cnblogs.com/jcchoiling/p/6440709.html 一、大数据性能调优的本质编程的时候发现一个惊人的规律，软件是不存在的！所有编程高手级别的人无论做什么类型的编程，最终思考的都是硬件方面的问题！最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行阅读全文

posted @ 2017-07-26 10:37 凌-风阅读(619) 评论(0) 推荐(0) 编辑

2017年7月24日

一、spark错误

摘要： 1、 spark 从hbase过滤出数据形成RDD，然后再做计算，这个错误大概意思是从hbase过滤出来的数据为空，也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca 阅读全文

posted @ 2017-07-24 12:01 凌-风阅读(2446) 评论(0) 推荐(0) 编辑

sqoop 补充

摘要： 1、用 sqoop 将MySQL中的数据导入hbase中 sqoop import \--connect jdbc:mysql://***.***.*.***:3306/mysql \--hbase-table Nbigdata \--column-family gps \--hbase-row-k 阅读全文

posted @ 2017-07-24 11:34 凌-风阅读(965) 评论(0) 推荐(0) 编辑

2017年7月21日

Hbase—— rowkey 过滤器（rowfilter）

摘要： 1、RowFilter 提取rowkey以01结尾数据Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*01$"));提取rowkey以包含201407的数据Filter 阅读全文

posted @ 2017-07-21 17:57 凌-风阅读(4483) 评论(0) 推荐(0) 编辑

2017年7月20日

spark 调优——基础篇

摘要：开发调优调优概述 Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据阅读全文

posted @ 2017-07-20 19:38 凌-风阅读(410) 评论(0) 推荐(0) 编辑

2017年6月6日

scala 的安装与 IDEA安装使用

摘要：一、安装 scala 1、下载scala-2.11.8.msi 安装包，首先去官网http://www.scala-lang.org/，然后点击导航栏的DOWNLOAD，进入下载链接：http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包，阅读全文

posted @ 2017-06-06 14:05 凌-风阅读(13100) 评论(1) 推荐(0) 编辑

2017年5月25日

kafka 多线程消费

摘要：一、 1、Kafka的消费并行度依赖Topic配置的分区数，如分区数为10，那么最多10台机器来并行消费（每台机器只能开启一个线程），或者一台机器消费（10个线程并行消费）。即消费并行度和分区数一致。 2、（1）如果指定了某个分区,会只讲消息发到这个分区上（2）如果同时指定了某个分区和key,则也阅读全文

posted @ 2017-05-25 17:25 凌-风阅读(24925) 评论(0) 推荐(1) 编辑

2017年5月24日

kafka partition（分区）与 group

摘要：一、 1、原理图 2、原理描述一个topic 可以配置几个partition，produce发送的消息分发到不同的partition中，consumer接受数据的时候是按照group来接受，kafka确保每个partition只能同一个group中的同一个consumer消费，如果想要重复消费，那阅读全文

posted @ 2017-05-24 19:50 凌-风阅读(162152) 评论(13) 推荐(12) 编辑

2017年5月23日

Kafka 接受数据并消费到hbase数据库

摘要：一、 1、生产者产生数据注： props.put("serializer.class", "kafka.serializer.StringEncoder") 发送的数据是String, 还可以是二进制数组形式： props.put("serializer.class", "kafka.seri 阅读全文

posted @ 2017-05-23 10:52 凌-风阅读(17044) 评论(3) 推荐(0) 编辑

2017年5月15日

Hbase（七）hbase高级编程

摘要：一、Hbase结合mapreduce 为什么需要用 mapreduce 去访问 hbase 的数据？ ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用 1、HbaseToHDFS 从 hbase 中读取数据，分析之后然后写入 hdfs，代码阅读全文

posted @ 2017-05-15 10:58 凌-风阅读(4185) 评论(0) 推荐(0) 编辑

人生，唯有锻炼与读书不能辜负

公告