12 2015 档案
摘要:因学习项目需要,在pom.xml添加hbase-client依赖的时候提示解决Maven工程中报 Missing artifact jdk.tools:jdk.tools:1.7的提示信息,之前遇到这样的情况都是到\repository仓库删除.lastupdated文件再保存,这次不管用了。看...
阅读全文
摘要:转自:http://blog.chinaunix.net/uid-27177626-id-4653808.htmlHive三种不同的数据导出的方式,根据导出的地方不一样,将这些方法分为三类:(1)导出到本地文件系统(2)导出到HDFS(3)导出到hive的另一个表中导出到本地文件系统执行:hive>...
阅读全文
摘要:转自:http://blog.csdn.net/nomasp/article/details/50349172堆算法什么是堆堆(heap),是一类特殊的数据结构的统称。它通常被看作一棵树的数组对象。在队列中,调度程序反复提取队列中的第一个作业并运行,因为实际情况中某些时间较短的任务却可能需要等待很长...
阅读全文
摘要:转自:http://blog.csdn.net/wypblog/article/details/17528851 最近发现自己收集到的Hadoop学习资料有很多本,想想放在那里也浪费,所以觉得贴出来给大家分享,需要的可以去我CSDN里面下载,保证全部资源免费下载!这里面很多英文的资料。 1、《H...
阅读全文
摘要:转自:http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop(1)MapReduce连接:重分区连接(Repartitionjoin)http://www.cnblogs.com/...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7394-1-1.html了解Storm:http://www.aboutyun.com/thread-9547-1-2.html问题导读:1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控...
阅读全文
摘要:转自:http://blog.linezing.com/?p=1847storm:http://www.cnblogs.com/panfeng412/tag/Storm/http://blog.linezing.com/?cat=921.1 实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是...
阅读全文
摘要:转自:http://my.oschina.net/mkh/blog/349866Hbase存储详解 started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital Hbase prototype...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/38369977随着对于编程的越来越深入,想想现在不能像以前那样冲着一股誓死要在1个月内完成某某项目的那个劲开始写代码,而是应该在开发前静下心来,好好想想新项目的架构设计,公共类的...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/47377543HDFS系列:http://blog.csdn.net/Androidlushangderen/article/category/5734703前言在Hadoop内...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/48128955YARN学习系列:http://blog.csdn.net/Androidlushangderen/article/category/5780183前言在之前两周主...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/45955833storm学习系列:http://blog.csdn.net/Androidlushangderen/article/category/2647213前言什么是st...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41477061上次分析完JobTracker通过TaskScheduler如何把作业分配给TaskTracker,这次把目光 移动到TaskTracker上面。TaskTrack...
阅读全文
摘要:转自:http://blog.csdn.net/Androidlushangderen/article/details/41408517JobTracker的作业调度给我感觉就是比较宏观意义上的操作。倘若你只了解了MapReduce的工作原理是远远不够的,这时去学习一下他在宏观层面的原理实现也是对我...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41278351花了大约1周的时间,终于把MapReduce的5大阶段的源码学习结束掉了,收获不少,就算本人对Hadoop学习的一个里程碑式的纪念吧。今天花了一点点的时间,把Map...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41172865Partition的中文意思就是分区,分片的意思,这个阶段也是整个MapReduce过程的第三个阶段,就在Map任务的后面,他的作用就是使key分到通过一定的分区算...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41142795上篇我刚刚学习完,Spilt的过程,还算比较简单的了,接下来学习的就是Map操作的过程了,Map和Reduce一样,是整个MapReduce的重要内容,所以,这一篇...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41114259昨天经过几个小时的学习,把MapReduce的第一个阶段的过程学习了一下,也就是最最开始的时候从文件中的Data到key-value的映射,也就是InputForm...
阅读全文
摘要:转自:http://blog.csdn.net/Androidlushangderen/article/details/41051027继前段时间分析Redis源码一段时间之后,我即将开始接下来的一段技术学习的征程,研究的技术就是当前非常火热的Hadoop,但是一个Hadoop生态圈是非常庞大的,所...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41243505MapReduce五大过程已经分析过半了,上次分析完Map的过程,着实花费了我的很多时间,不过收获很大,值得了额,这次用同样的方法分析完了Reduce的过程,也算是...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41356521在Hadoop中,启动作业运行的方式有很多,可以用命令行格式把打包好后的作业提交还可以,用Hadoop的插件进行应用开发,在这么多的方式中,都会必经过一个流程,作业...
阅读全文
摘要:转自:http://blog.csdn.net/jsagnoy/article/details/41545883从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东...
阅读全文
摘要:转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据...
阅读全文
摘要:转自:http://www.cnblogs.com/cenyuhai/tag/hbase%E6%BA%90%E7%A0%81%E7%B3%BB%E5%88%97/(mark)hbase源码系列(十)HLog与日志恢复HLog概述hbase在写入数据之前会先写入MemStore,成功了再写入HLog,...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201312/2178.htmlorg.apache.hadoop.conf.Configuration类是Hadoop所有功能的基础类,每一种功能执行之前都需要有先得到一个Configuration对象。Hadoop使用了XML...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201307/1532.htmlSqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201307/1531.html基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来。但是其实入门问题也很重要,对原理的理解决定了学习能够深入的程度。本篇不讨论Hadoop,只介绍周边软件。Hive:这个是我被人...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201402/2382.html在上一篇文章Hadoop源码分析之DataNode的启动与停止中分析了DataNode节点的启动大致过程,下面来重点分析DataNode节点中启动过程中的与NameNode节点的几个通信过程。IPC...
阅读全文
摘要:转自:http://www.tuicool.com/articles/neUrmu在上一篇博文中分析了客户端从HDFS读取数据的过程,下面来看看客户端是怎么样向HDFS写数据的,下面的代码将本地文件系统中/home/hadoop/input目录下的文件写入到本地搭建的HDFS的/test文件中,代码...
阅读全文
摘要:转自:http://blog.csdn.net/workformywork/article/details/21783861从NameNode节点获取数据块所在节点等信息客户端在和数据节点建立流式接口的TCP连接,读取文件数据前需要定位数据的位置,所以首先客户端在DFSClient.callGetB...
阅读全文
摘要:转自:http://www.it165.net/admin/html/201404/2726.html本文主要介绍5个典型的HDFS流程,这些流程充分体现了HDFS实体间IPC接口和stream接口之间的配合。1. Client和NNClient到NN有大量的元数据操作,比如修改文件名,在给定目录下...
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8309539redis:1、NIO通信 因都在内存操作,所以逻辑的操作非常快,减少了CPU的切换开销,所以为单线程的模式(逻辑处理线程和主线程是一个)。 reactor模式,实现自己的多路复用N...
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8331937整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生...
阅读全文
摘要:转自:http://blog.csdn.net/lihm0_1/article/details/22186833YARN作业提交的客户端仍然使用RunJar类,和MR1一样,可参考http://blog.csdn.net/lihm0_1/article/details/13629375在1.x中是向...
阅读全文
摘要:转自:http://blog.csdn.net/keda8997110/article/details/8349049heartbeat 心跳技术原理: heartbeat (Linux-HA)的工作原理:heartbeat最核心的包括两个部分,心跳监测部分和资源接管部分,心跳监测可以通过网络链路...
阅读全文
摘要:转自:http://my.oschina.net/leejun2005/blog/100922最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分...
阅读全文
摘要:转自:http://www.importnew.com/11028.html第一篇讨论了面向对象编程和它的特点,关于Java和它的功能的常见问题,Java的集合类,垃圾收集器,本章主要讨论异常处理,Java小应用程序,Swing,JDBC,远程方法调用(RMI),Servlet和JSP。异常处理Ja...
阅读全文
摘要:转自:http://www.importnew.com/10980.html本文我们将要讨论Java面试中的各种不同类型的面试题,它们可以让雇主测试应聘者的Java和通用的面向对象编程的能力。下面的章节分为上下两篇,第一篇将要讨论面向对象编程和它的特点,关于Java和它的功能的常见问题,Java的集...
阅读全文
摘要:转自:http://www.cnblogs.com/chenz/articles/3229997.html背景:某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。针对HBa...
阅读全文