会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
waker_wang
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2018年8月31日
spark持久化
摘要: package com.wll; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class Persist { static SparkConf conf=new...
阅读全文
posted @ 2018-08-31 21:57 waker_wang
阅读(206)
评论(0)
推荐(0)
编辑
2018年8月28日
hive排序
摘要: 1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个
阅读全文
posted @ 2018-08-28 10:46 waker_wang
阅读(1428)
评论(0)
推荐(0)
编辑
2018年8月27日
Hadoop参数调优
摘要: 转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.task
阅读全文
posted @ 2018-08-27 16:13 waker_wang
阅读(1940)
评论(0)
推荐(0)
编辑
hive自定义函数(UDF)
摘要: 首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数
阅读全文
posted @ 2018-08-27 15:46 waker_wang
阅读(976)
评论(0)
推荐(0)
编辑
HDFS优缺点
摘要: 1、之所以选择 HDFS 存储数据,是因为 HDFS 具有以下优点: (1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 2) 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。 (2) 适合批处理 1) 它是通过移动计算而不是移动数据
阅读全文
posted @ 2018-08-27 11:44 waker_wang
阅读(10866)
评论(0)
推荐(0)
编辑
2018年8月26日
HDSF读写文件
摘要: HDFS 读取文件 HDFS的文件读取原理,主要包括以下几个步骤: 1、首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的 实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的 loca
阅读全文
posted @ 2018-08-26 14:28 waker_wang
阅读(228)
评论(0)
推荐(0)
编辑
一个 mr 作业跑的比较慢,如何来优化。
摘要: mr跑的慢可能有很多原因,如:数据倾斜、map和reduce数设置不合理、reduce等待过久、小文件过多、spill 次数过多、 merge 次数过多等。 1、解决数据倾斜:数据倾斜可能是partition不合理,导致部分partition中的数据过多,部分过少。可通过分析数据,自定义分区器解决。
阅读全文
posted @ 2018-08-26 10:39 waker_wang
阅读(1412)
评论(0)
推荐(0)
编辑
2018年8月24日
MR执行流程
摘要: 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出。 <hello,1> <you,1> <he
阅读全文
posted @ 2018-08-24 17:04 waker_wang
阅读(3918)
评论(0)
推荐(0)
编辑
2018年8月22日
关于Linux中mysql中文乱码
摘要: 1、SHOW VARIABLES LIKE 'character_set_%';查看编码集 2、编辑/etc/my.cnf文件 加入这个设置 default-character-set=utf8 (这个是一劳永逸的方法) 然后重启mysql服务: sudo service mysqld restar
阅读全文
posted @ 2018-08-22 10:45 waker_wang
阅读(2461)
评论(0)
推荐(0)
编辑
2018年8月21日
hadoop的shuffle过程
摘要: 1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序; 2. shuffle缓存流程: shuffle是MapReduce处理流程中的一个过程,
阅读全文
posted @ 2018-08-21 16:04 waker_wang
阅读(635)
评论(0)
推荐(0)
编辑
下一页
公告