2018年8月31日

spark持久化

摘要： package com.wll; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class Persist { static SparkConf conf=new... 阅读全文

posted @ 2018-08-31 21:57 waker_wang 阅读(215) 评论(0) 推荐(0)

2018年8月28日

hive排序

摘要： 1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个阅读全文

posted @ 2018-08-28 10:46 waker_wang 阅读(1443) 评论(0) 推荐(0)

2018年8月27日

Hadoop参数调优

摘要：转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.task 阅读全文

posted @ 2018-08-27 16:13 waker_wang 阅读(1968) 评论(0) 推荐(0)

hive自定义函数（UDF）

摘要：首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数阅读全文

posted @ 2018-08-27 15:46 waker_wang 阅读(1003) 评论(0) 推荐(0)

HDFS优缺点

摘要： 1、之所以选择 HDFS 存储数据，是因为 HDFS 具有以下优点： (1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式，提高容错性。 2) 某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。 (2) 适合批处理 1) 它是通过移动计算而不是移动数据阅读全文

posted @ 2018-08-27 11:44 waker_wang 阅读(11003) 评论(0) 推荐(0)

2018年8月26日

HDSF读写文件

摘要： HDFS 读取文件 HDFS的文件读取原理，主要包括以下几个步骤： 1、首先调用FileSystem对象的open方法，其实获取的是一个DistributedFileSystem的实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的 loca 阅读全文

posted @ 2018-08-26 14:28 waker_wang 阅读(243) 评论(0) 推荐(0)

一个 mr 作业跑的比较慢，如何来优化。

摘要： mr跑的慢可能有很多原因，如：数据倾斜、map和reduce数设置不合理、reduce等待过久、小文件过多、spill 次数过多、 merge 次数过多等。 1、解决数据倾斜：数据倾斜可能是partition不合理，导致部分partition中的数据过多，部分过少。可通过分析数据，自定义分区器解决。阅读全文

posted @ 2018-08-26 10:39 waker_wang 阅读(1504) 评论(0) 推荐(0)

2018年8月24日

MR执行流程

摘要： 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map()，接收1.1产生的<k,v>，进行处理，转换为新的<k,v>输出。 <hello,1> <you,1> <he 阅读全文

posted @ 2018-08-24 17:04 waker_wang 阅读(3978) 评论(0) 推荐(0)

2018年8月22日

关于Linux中mysql中文乱码

摘要： 1、SHOW VARIABLES LIKE 'character_set_%';查看编码集 2、编辑/etc/my.cnf文件加入这个设置 default-character-set=utf8 （这个是一劳永逸的方法）然后重启mysql服务： sudo service mysqld restar 阅读全文

posted @ 2018-08-22 10:45 waker_wang 阅读(2474) 评论(0) 推荐(0)

2018年8月21日

hadoop的shuffle过程

摘要： 1. shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）； shuffle具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行排序； 2. shuffle缓存流程： shuffle是MapReduce处理流程中的一个过程，阅读全文

posted @ 2018-08-21 16:04 waker_wang 阅读(666) 评论(0) 推荐(0)