上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 52 下一页
摘要: 一、起步 1.先导 凡技术必登其官网的原则,官网走一波:https://projects.spring.io/spring-boot/#quick-start 极力推荐一个springboot教程:https://gitee.com/didispace/SpringBoot-Learning 2.s 阅读全文
posted @ 2018-02-07 15:03 ---江北 阅读(1260) 评论(0) 推荐(0)
摘要: 一、HA概述 1.引言 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 2.运行机制 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA 详解: 通过双namenode消除单点故障 双namenode协调工作 阅读全文
posted @ 2018-02-07 10:03 ---江北 阅读(505) 评论(0) 推荐(0)
摘要: 一、自定义in/outputFormat 1.需求 现有一些原始日志需要做增强解析处理,流程: 1、 从原始日志文件中读取数据 2、 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、 如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 阅读全文
posted @ 2018-02-06 14:29 ---江北 阅读(668) 评论(0) 推荐(0)
摘要: 一、数据倾斜分析——mapJoin 1.背景 接上一个day的Join算法,我们的解决join的方式是:在reduce端通过pid进行串接,这样的话: 例如订单中的小米5卖的比较好(截止博客时间,已经是米7将出的时候了。),这样的话大部分的数据都流向了P0001的这个reduce上,而P0002 的 阅读全文
posted @ 2018-02-05 16:25 ---江北 阅读(936) 评论(0) 推荐(0)
摘要: 一、起步 引入依赖: 当然,一般可能项目中不会需要单独引入这个依赖,可能其他依赖自动引入了此包,请先检查,避免重复引入! 二、开始 文档:http://commons.apache.org/proper/commons-beanutils/javadocs/v1.9.3/apidocs/org/ap 阅读全文
posted @ 2018-02-05 14:51 ---江北 阅读(2803) 评论(0) 推荐(0)
摘要: 一、本地模式调试MR程序 1.准备 参考之前随笔的windows开发说明处:http://www.cnblogs.com/jiangbei/p/8366238.html 2.流程 最重要的是设置LocalJobRunner这个参数,这样mapreduce就变成一个线程在跑了! 而处理的数据及输出结果 阅读全文
posted @ 2018-02-04 13:48 ---江北 阅读(807) 评论(0) 推荐(0)
摘要: 1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr与yarn 5/mr运行模式 6/mr实现join 7/mr全局图 8/mr的压缩 今日提纲 一、流量汇总排序的实现 1.需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析 基本思路:实现自定 阅读全文
posted @ 2018-02-02 09:16 ---江北 阅读(1135) 评论(0) 推荐(0)
摘要: 1.大数据概念 关键是4V:海量(数据量打)、快速(处理速度快)、多样(数据多样化)、价值(价值密度低,商业价值高) 2.大数据关键技术 两大核心技术: 计算模式: mapreduce等的批处理无法完成高效处理(没有秒级响应) stom等的流计算针对的是秒级响应的处理 Hive等的交互式实时响应 3 阅读全文
posted @ 2018-02-01 19:50 ---江北 阅读(799) 评论(0) 推荐(0)
摘要: 一、mapTask并行度的决定机制 1.概述 一个job的map阶段并行度由客户端在提交job时决定 而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split,然后每一个split分配一个mapTask并行实例处理 这 阅读全文
posted @ 2018-01-31 21:55 ---江北 阅读(1219) 评论(0) 推荐(0)
摘要: 一、概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data- 阅读全文
posted @ 2018-01-30 19:32 ---江北 阅读(1192) 评论(0) 推荐(0)
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 52 下一页
TOP