随笔分类 - hadoop
摘要:集群节点数量3 个192.168.1.170 cdh-master192.168.1.171 cdh-slave-1192.168.1.171 cdh-slave-2一、安装CentOS6.5 (64位)并搭建基本环境,包括:(1)添加sudo 权限(2)修改主机名、网关、静态IP地址、DNS(3)...
阅读全文
摘要:一、集群安装1. Kafka下载:wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz解压 tar zxvf kafka_2.9.2-0.8.1.tgzkafka使用scala编写,需要下载scala相关的库2....
阅读全文
摘要:(一)从关系型数据库导入至HDFS1.将下面的参数保持为import.scriptimport--connectjdbc:mysql://192.168.1.14:3306/test--username root--password 1234-m1--null-string''--table use...
阅读全文
摘要:1.一般操作status 查看状态version 查看HBase版本2.DDL操作create 'member','member_id','address','info' 创建了一个member表,包含member_id、address、info三个列族describe 'member' 显示表的详...
阅读全文
摘要:包依赖比较麻烦,找了好久,我用的CDH5.0 现将所依赖的包的列表清单如下:public class EmployeeDao { /** * @param args */ public static Configuration configuration; static { con...
阅读全文
摘要:HBase 数据的插入可以使用Java API 来写Java 程序逐条倒入,但是不是很方便。利用Hive自带的一个Jar包,可以建立Hive和HBase的映射关系 利用Hive 的insert可以将批量数 据导入到HBase中,还可以通过 Hql 语句进行查询。具体的配置方法如下:1、把hive-h...
阅读全文
摘要:Create EXTERNAL table obd_data_2( imei string, ts timestamp, fuel_instant float, gps_speed float, gps_status string, gps_longitude float, ...
阅读全文
摘要:1. 最经典的方法通过打印语句来调试程序 System.err.println("Bad Data"+value.toString()); 这些输出错误都会记录到一个标准错误中,可以通过WebUI进行查看2.可以创建一个自定义计数器来统计整个数据集中不合理的数据的数量。 首先创建一个enum enum BAD_DATA{ BAD_DATA_1, BAD_DATA_2 }if(strs[1].split(",")!=null&&strs[1].split(",").length>11){ frontValues.a
阅读全文
摘要:package com.sun.mysql;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import o
阅读全文
摘要:Hadoop 分布式缓存实现目的是在所有的MapReduce调用一个统一的配置文件,首先将缓存文件放置在HDFS中,然后程序在执行的过程中会可以通过设定将文件下载到本地具体设定如下:public static void main(String[] arge) throws IOException, ClassNotFoundException, InterruptedException{ Configuration conf=new Configuration(); conf.set("fs.default.name", "hdfs://192.168.1.45:
阅读全文