ggjucheng - 博客园

tomcat部署web应用(转)

摘要：对Tomcat部署web应用的方式总结，常见如下：Tomcat自动部署将PetWeb目录拷贝到$CATALINA_HOME\webapps下，然后启动服务器就可以了。这种方式比较简单，但是web应用程序必须在webapps目录下。访问地址如下：http://localhost:8080/PetWeb/修改Server.xml文件部署用UE或EditPlus打开Tomcat位于conf/server.xml的配置文件，找到以下内容：<Host name="localhost" debug="0" appBase="webapps" 阅读全文

posted @ 2013-04-16 15:44 ggjucheng 阅读(7094) 评论(0) 推荐(0) 编辑

MapReduce源码分析总结(转)

摘要：一MapReduce概述Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programmingmodel），是一个用于处理和生成大规模数据集（processing and generating large data sets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务阅读全文

posted @ 2013-02-20 14:30 ggjucheng 阅读(5771) 评论(1) 推荐(0) 编辑

HDFS dfsclient写文件过程源码分析

摘要： HDFS写入文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk（默认512Byte）组成。Chunk是进行数据校验的基本单位，对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在写入一个block的时候，数据传输的基本单位是packet，每个packet由若干个chunk组成。HDFS客户端写文件示例代码FileSystem hdfs = FileSystem.get(new Configuration());Path path = new 阅读全文

posted @ 2013-02-19 21:45 ggjucheng 阅读(8961) 评论(0) 推荐(2) 编辑

HDFS dfsclient读文件过程源码分析

摘要： HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk（默认512Byte）组成。Chunk是进行数据校验的基本单位，对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候，数据传输的基本单位是packet，每个packet由若干个chunk组成。HDFS客户端读文件示例代码FileSystem hdfs = FileSystem.get(new Configuration());Path path = new 阅读全文

posted @ 2013-02-19 13:22 ggjucheng 阅读(7276) 评论(1) 推荐(0) 编辑

HDFS datanode源码分析

摘要： datanode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。DataNode是hdfs文件系统中真正存储数据的节点。每个DataNode周期性和唯一的NameNode通信，还时不时和hdfs客户端代码以及其他datanode通信。datanode维护一个重要的表: 块=>字节流这些存储在本地磁盘，DataNode在启动时，还有启动后周期性报告给NameNode，这个表的内容。DataNodes周期性请求NameNode询问命令操作，NameNode不能直接连接DataNode，NameNode在DataNode调用时，简单返回值。DataNodes还维护一阅读全文

posted @ 2013-02-16 21:48 ggjucheng 阅读(6102) 评论(1) 推荐(2) 编辑

HDFS namenode源码分析

摘要： Namenode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。NameNode作为HDFS中文件目录和文件分配的管理者，它保存的最重要信息，就是下面两个映射：文件名=>数据块数据块=>DataNode列表其中，文件名=>数据块保存在磁盘上（持久化）；但NameNode上不保存数据块=>DataNode列表，该列表是通过DataNode上报建立起来的。NameNode启动流程在命令行启动namenode的方法是:bin/hadoop namenode查看bin/hadoop脚本，可以看到最后执行的java类是:org.apache.hadoo 阅读全文

posted @ 2013-02-04 13:34 ggjucheng 阅读(7220) 评论(0) 推荐(1) 编辑

HDFS的基本概念(转)

摘要： HDFS的基本概念1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。2、元数据节点(Namenode)和数据节点(datanode)namenode用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace image)及修改日志(edit log)其阅读全文

posted @ 2013-02-01 16:05 ggjucheng 阅读(4190) 评论(0) 推荐(1) 编辑

hive中UDTF编写和使用(转)

摘要： 1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法,真正的处理过程在process函数中，在process中，每一次forward() 阅读全文

posted @ 2013-02-01 12:29 ggjucheng 阅读(30874) 评论(1) 推荐(3) 编辑

hive udaf开发入门和运行过程详解

摘要：介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用，hive的group by对于每个分组，只能返回一条记录，这点和mysql不一样，切记。UDAF开发概览开发通用UDAF有两个步骤，第一个是编写resolver类，第二个是编写evaluator类。re 阅读全文

posted @ 2013-02-01 11:31 ggjucheng 阅读(36416) 评论(6) 推荐(9) 编辑

hive原生和复合类型的数据加载和使用

摘要：原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用)，这些数据加载很容易，只要设置好列分隔符，按照列分隔符输出到文件就可以了。假设有这么一张用户登陆表CREATE TABLE login ( uid BIGINT, ip STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STORED AS TEXTFILE;这表示登陆表ip字段和uid字段以分隔阅读全文

posted @ 2013-01-31 17:20 ggjucheng 阅读(6665) 评论(2) 推荐(1) 编辑

简单，可复制

公告