kalor

导航

 

2013年12月9日

摘要: hbase一般用于大数据的批量分析,所以在很多情况下需要将大量数据从外部导入到hbase中,hbase提供了一种导入数据的方式,主要用于批量导入大量数据,即importtsv工具,用法如下:Usage: importtsv -Dimporttsv.columns=a,b,c Imports the given input directory of TSV data into the specified table.The column names of the TSV data must be specified using the -Dimporttsv.columnsoption. Th. 阅读全文
posted @ 2013-12-09 22:20 kalor 阅读(8443) 评论(0) 推荐(0) 编辑
 
摘要: 法一:hive (stuchoosecourse) > insert overwrite local directory '/home/landen/文档/exportDir' > select * from hiddenipinfo;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_201312042044_0026, Tracking UR 阅读全文
posted @ 2013-12-09 20:34 kalor 阅读(554) 评论(0) 推荐(0) 编辑
 
摘要: 修改HBase表结构之前首先需要disable表,然后进行更改相关表结构信息,最后enable表,如下1. 动态添加一个或多个列簇hbase(main):034:0> describe 'HiddenIPInfo'DESCRIPTION ENABLED 'HiddenIPInfo', {NAME => 'IPAddress', DATA_BLOCK_ENCODING => 'NONE', BLOOMFI true LTER => 'NONE', REPLICATION_SCOPE => 阅读全文
posted @ 2013-12-09 20:09 kalor 阅读(850) 评论(0) 推荐(0) 编辑
 
摘要: landen@Master:~/UntarFile/hive-0.10.0$ bin/hive --database 'stuchoosecourse' -e 'select * from hiddenipinfo'WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.Logging initialized u 阅读全文
posted @ 2013-12-09 15:07 kalor 阅读(350) 评论(0) 推荐(0) 编辑
 
摘要: Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的 意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。Precondition:通过 IP 地址获得用户的地理位置信息也就是根据用户的IP,通过IP数据库查询获得信息。一般IP数据库中,每条记录的基本结构:IP地址段(起始、结束),以及对应的信息数据一般包含的信息:国家、区域(省/州)、城市、街道、经纬度、ISP提供商等信息因为IP数据库随着时间经常变化(不过一段时间内变化很小),所以需要 阅读全文
posted @ 2013-12-09 14:27 kalor 阅读(2769) 评论(0) 推荐(0) 编辑