摘要: Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是 which reducer=(key.hashCode() & Integer.MAX... 阅读全文
posted @ 2016-04-05 20:11 时光.漫步 阅读(177) 评论(0) 推荐(0) 编辑
摘要: Linux下搭建eclipse环境: 1. 将eclipse安装包使用FileZilla传至虚拟机itcast01,解压到 /usr/local 2. 在桌面上创建快捷方式,更新图标 3. 打开eclipse,新建一个maven工程 参数设置:Group Id:cn.itca... 阅读全文
posted @ 2016-04-05 16:53 时光.漫步 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 数据原型: 行数据原型格式释义:(访问日期)(手机号)(mac地址)(ip地址)(网站名称)(网站类型)(上行流量)(下行流量)(运行状态码)需求: 将以上数据进行抽取统计,统计每个用户一天内上网数据的上行流量、下行流量和总流量(注意:用户一天之内很可能有多条上网记录)1.1 ... 阅读全文
posted @ 2016-04-05 16:41 时光.漫步 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 hadoop将Java中的序列化接口(java.io.Serializable)进行了改造,已达到高效传输的目的... 阅读全文
posted @ 2016-04-05 16:04 时光.漫步 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 重点内容!!! 需要熟记: 80%-90%会问 一个切片split对应一个mapper,mapper将数据写到环形缓冲区,这个环形缓冲区默认是100M,当它达到80%阀值,它会将数据溢写到磁盘。溢写并不是简单的溢写,而是先进行分区,然后... 阅读全文
posted @ 2016-04-05 15:01 时光.漫步 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 在 hadoop 的 HDFS 操作中,有个非常重要的 api,是 org.apache.hadoop.fs.FileSystem, 这是我们用户代码操作 HDFS 的直接入口,该类含有操作 HDFS 的各种方法,类似于 jdbc 中 操作数据库的直接入口是 Connection ... 阅读全文
posted @ 2016-04-05 11:27 时光.漫步 阅读(768) 评论(0) 推荐(0) 编辑
摘要: RPC(Remote Procedure Call)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC**跨越了传输层和应用... 阅读全文
posted @ 2016-04-05 10:59 时光.漫步 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 在windows 的cmd下 解除已经绑定的端口:1 开始-运行-cmd,输入: netstat -aon|findstr “端口号” netstat -aon|findstr “9528”通过端口号,查看对应进程。 2 找到进程号对应的进程名称: taskl... 阅读全文
posted @ 2016-04-05 10:47 时光.漫步 阅读(215) 评论(0) 推荐(0) 编辑