随笔分类 -  hadoop

1 2 下一页
大数据处理
hadoop三个配置文件的参数含义说明
摘要:1 获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有 阅读全文
posted @ 2017-10-25 10:37 csguo 阅读(726) 评论(0) 推荐(0)
Hadoop配置文件参数详解
摘要:Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。 etc/hadoop/core-site.xml 参数 属性值 解释 fs.defaultFS NameNode URI hdfs://host: 阅读全文
posted @ 2017-10-25 09:30 csguo 阅读(926) 评论(0) 推荐(1)
Flume
摘要:在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 阅读全文
posted @ 2017-10-13 14:51 csguo 阅读(323) 评论(0) 推荐(0)
Oozie
摘要:Oozie是一个基于工作流引擎的服务器,可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器(比如Tomcat)中的Javas Web应用。 对于Oozie来说,工作流就是一系列的操作(比如Hadoop的MR,以及Pig的任务),这些操作通过 阅读全文
posted @ 2017-10-13 13:52 csguo 阅读(631) 评论(0) 推荐(0)
Java的SPI机制与简单的示例
摘要:一、SPI机制 这里先说下SPI的一个概念,SPI英文为Service Provider Interface单从字面可以理解为Service提供者接口,正如从SPI的名字去理解SPI就是Service提供者接口;我对SPI的定义:提供给服务提供厂商与扩展框架功能的开发者使用的接口。 在我们日常开发的 阅读全文
posted @ 2017-09-22 10:49 csguo 阅读(208) 评论(0) 推荐(0)
Java 网络IO编程总结(BIO、NIO、AIO均含完整实例代码)
摘要:转载请注明出处:http://blog.csdn.net/anxpp/article/details/51512200,谢谢! 本文会从传统的BIO到NIO再到AIO自浅至深介绍,并附上完整的代码讲解。 下面代码中会使用这样一个例子:客户端发送一段算式的字符串到服务器,服务器计算后返回结果到客户端。 阅读全文
posted @ 2017-09-21 22:54 csguo 阅读(452) 评论(0) 推荐(0)
Java序列化机制和原理
摘要:Java序列化算法透析 Serialization(序列化)是一种将对象以一连串的字节描述的过程;反序列化deserialization是一种将这些字节重建成一个对象的过程。Java序列化API提供一种处理对象序列化的标准机制。在这里你能学到如何序列化一个对象,什么时候需要序列化以及Java序列化的 阅读全文
posted @ 2017-09-21 22:36 csguo 阅读(1034) 评论(0) 推荐(0)
攻破JAVA NIO技术壁垒
摘要:现在使用NIO的场景越来越多,很多网上的技术框架或多或少的使用NIO技术,譬如Tomcat,Jetty。学习和掌握NIO技术已经不是一个JAVA攻城狮的加分技能,而是一个必备技能。再者,现在互联网的面试中上点level的都会涉及一下NIO或者AIO的问题(AIO下次再讲述,本篇主要讲述NIO),掌握 阅读全文
posted @ 2017-09-21 18:29 csguo 阅读(195) 评论(0) 推荐(0)
Java序列化与反序列化
摘要:Java序列化与反序列化是什么?为什么需要序列化与反序列化?如何实现Java序列化与反序列化?本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程;而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化 阅读全文
posted @ 2017-09-21 17:33 csguo 阅读(174) 评论(0) 推荐(0)
hadoop的RPC机制 -源码分析
摘要:这些天一直奔波于长沙和武汉之间,忙着腾讯的笔试、面试,以至于对hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/v 阅读全文
posted @ 2017-09-21 17:25 csguo 阅读(275) 评论(0) 推荐(0)
JAVA动态代理
摘要:最近一直在分析hadoop的RPC机制。在hadoop中,DataNode和NameNode之间的控制信息的交流是通过RPC机制完成的,采用的是动态代理和java NIO(参考博客:http://weixiaolu.iteye.com/blog/1479656 ) 的方式。DataNode端是通过获 阅读全文
posted @ 2017-09-21 17:05 csguo 阅读(190) 评论(0) 推荐(0)
Java NIO原理图文分析及代码实现
摘要:最近在分析hadoop的RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考:http://baike.baidu.com/view/32726.htm )机制时,发现hadoo 阅读全文
posted @ 2017-09-21 16:57 csguo 阅读(267) 评论(0) 推荐(0)
Hadoop/Spark生态圈里的新气象
摘要:令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。 对于Hadoop你需要了解的最重要的事情就是 ,它不再是原来的Hadoop。 这边厢,Cloudera有时换掉HDFS改用Kudu,同时宣布Spark是其圈子的核心(因而一概取代 阅读全文
posted @ 2017-09-21 16:34 csguo 阅读(443) 评论(0) 推荐(0)
Hadoop RPC机制的使用
摘要:一、RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。 RPC协议假定某些传输协议的存在 阅读全文
posted @ 2017-09-21 14:49 csguo 阅读(443) 评论(0) 推荐(0)
一个故事讲清楚NIO
摘要:假设某银行只有10个职员。该银行的业务流程分为以下4个步骤: 1) 顾客填申请表(5分钟); 2) 职员审核(1分钟); 3) 职员叫保安去金库取钱(3分钟); 4) 职员打印票据,并将钱和票据返回给顾客(1分钟)。 我们看看银行不同的工作方式对其工作效率到底有何影响。 1 BIO方式 每来一个顾客 阅读全文
posted @ 2017-09-21 11:59 csguo 阅读(213) 评论(0) 推荐(0)
[Hive]使用 Antlr 开发领域语言
摘要:Antlr 简介 Antlr 能做什么 编程语言处理 识别和处理编程语言是 Antlr 的首要任务,编程语言的处理是一项繁重复杂的任务,为了简化处理,一般的编译技术都将语言处理工作分为前端和后端两个部分。其中前端包括词法分析、语法分析、语义分析、中间代码生成等若干步骤,后端包括目标代码生成和代码优化 阅读全文
posted @ 2017-09-19 17:41 csguo 阅读(762) 评论(0) 推荐(0)
[Hive]HiveSQL解析原理
摘要:Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 阅读全文
posted @ 2017-09-19 17:37 csguo 阅读(7568) 评论(0) 推荐(3)
十分钟理解Actor模式
摘要:Actor模式是一种并发模型,与另一种模型共享内存完全相反,Actor模型share nothing。所有的线程(或进程)通过消息传递的方式进行合作,这些线程(或进程)称为Actor。共享内存更适合单机多核的并发编程,而且共享带来的问题很多,编程也困难。随着多核时代和分布式系统的到来,共享模型已经不 阅读全文
posted @ 2017-09-14 16:26 csguo 阅读(27289) 评论(1) 推荐(3)
Hadoop深入浅出实战经典视频教程(共22讲)
摘要:该视频教程共22讲,由王家林老师主讲。 第01讲:为什么会有第一代大数据技术Hadoop和第二代大数据技术Spark? 第02讲:10分钟从技术角度理解Hadoop 第03讲:Hadoop集群安装解析 第04讲:Hadoop集群构建硬件选择、集群规模、网络拓扑、机架感知等 第05讲:Hadoop集群 阅读全文
posted @ 2017-08-14 08:27 csguo 阅读(20088) 评论(0) 推荐(1)
hadoop HDFS常用文件操作命令
摘要:hadoop HDFS常用文件操作命令 shell hdfs MrZONT 2015年04月14日发布 | 1 收藏 | 33 51.2k 次浏览 hadoop HDFS常用文件操作命令 shell hdfs MrZONT 2015年04月14日发布 | 1 收藏 | 33 51.2k 次浏览 ha 阅读全文
posted @ 2017-08-08 17:52 csguo 阅读(1244) 评论(0) 推荐(0)

1 2 下一页