---江北

2018年2月6日

摘要：一、自定义in/outputFormat 1.需求现有一些原始日志需要做增强解析处理，流程： 1、从原始日志文件中读取数据 2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、如果成功增强，则输出到增强结果目录；如果增强失败，则抽取原始数据中URL字段输出到待爬清单目录阅读全文

posted @ 2018-02-06 14:29 ---江北阅读(650) 评论(0) 推荐(0) 编辑

2018年2月5日

大数据入门第九天——MapReduce详解（五）mapJoin、GroupingComparator与更多MR实例

摘要：一、数据倾斜分析——mapJoin 1.背景接上一个day的Join算法，我们的解决join的方式是：在reduce端通过pid进行串接，这样的话：例如订单中的小米5卖的比较好（截止博客时间，已经是米7将出的时候了。），这样的话大部分的数据都流向了P0001的这个reduce上，而P0002 的阅读全文

posted @ 2018-02-05 16:25 ---江北阅读(912) 评论(0) 推荐(0) 编辑

【commons】Bean工具类——commons-beanutils之BeanUtils

摘要：一、起步引入依赖：当然，一般可能项目中不会需要单独引入这个依赖，可能其他依赖自动引入了此包，请先检查，避免重复引入！二、开始文档：http://commons.apache.org/proper/commons-beanutils/javadocs/v1.9.3/apidocs/org/ap 阅读全文

posted @ 2018-02-05 14:51 ---江北阅读(2686) 评论(0) 推荐(0) 编辑

2018年2月4日

大数据入门第八天——MapReduce详解（四）本地模式运行与join实例

摘要：一、本地模式调试MR程序 1.准备参考之前随笔的windows开发说明处：http://www.cnblogs.com/jiangbei/p/8366238.html 2.流程最重要的是设置LocalJobRunner这个参数，这样mapreduce就变成一个线程在跑了！而处理的数据及输出结果阅读全文

posted @ 2018-02-04 13:48 ---江北阅读(742) 评论(0) 推荐(0) 编辑

2018年2月2日

大数据入门第八天——MapReduce详解（三）MR的shuffer、combiner与Yarn集群分析

摘要： 1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr与yarn 5/mr运行模式 6/mr实现join 7/mr全局图 8/mr的压缩今日提纲一、流量汇总排序的实现 1.需求对日志数据中的上下行流量信息汇总，并输出按照总流量倒序排序的结果 2.分析基本思路：实现自定阅读全文

posted @ 2018-02-02 09:16 ---江北阅读(1092) 评论(0) 推荐(0) 编辑

2018年2月1日

《大数据原理与应用》——大数据概述

摘要： 1.大数据概念关键是4V：海量（数据量打）、快速（处理速度快）、多样（数据多样化）、价值（价值密度低，商业价值高） 2.大数据关键技术两大核心技术：计算模式： mapreduce等的批处理无法完成高效处理（没有秒级响应） stom等的流计算针对的是秒级响应的处理 Hive等的交互式实时响应 3 阅读全文

posted @ 2018-02-01 19:50 ---江北阅读(756) 评论(0) 推荐(0) 编辑

2018年1月31日

大数据入门第七天——MapReduce详解（二）切片源码浅析与自定义patition

摘要：一、mapTask并行度的决定机制 1.概述一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split，然后每一个split分配一个mapTask并行实例处理这阅读全文

posted @ 2018-01-31 21:55 ---江北阅读(1170) 评论(0) 推荐(0) 编辑

2018年1月30日

大数据入门第七天——MapReduce详解（一）入门与简单示例

摘要：一、概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data- 阅读全文

posted @ 2018-01-30 19:32 ---江北阅读(1113) 评论(0) 推荐(0) 编辑

【commons】IO工具类——commons-io之IOUtils

摘要：本文转载自xingoo： https://www.cnblogs.com/xing901022/p/5978989.html 一、常用静态变量二、常用方法 copy 这个方法可以拷贝流，算是这个工具类中使用最多的方法了。支持多种数据间的拷贝: copy内部使用的其实还是copyLarge方法。因为阅读全文

posted @ 2018-01-30 12:50 ---江北阅读(2042) 评论(0) 推荐(0) 编辑

2018年1月29日

大数据入门第六天——HDFS详解

摘要：一、概述 1.HDFS中的角色 Block数据： HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，之前的版本中是64M 基本存储单位，一般大小为64M（配置大的块主要是因为：1）减少搜寻时阅读全文

posted @ 2018-01-29 12:06 ---江北阅读(576) 评论(0) 推荐(0) 编辑

冰冻三尺，非一日之寒

公告