kalor - 博客园

Hive Cli相关操作

摘要： landen@Master:~/UntarFile/hive-0.10.0$ bin/hive --database 'stuchoosecourse' -e 'select * from hiddenipinfo'WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.Logging initialized u 阅读全文

posted @ 2013-12-09 15:07 kalor 阅读(354) 评论(0) 推荐(0) 编辑

使用Hive UDF和GeoIP库为Hive加入IP识别功能

摘要： Hive是基于Hadoop的数据管理系统，作为分析人员的即时分析工具和ETL等工作的执行引擎，对于如今的大数据管理与分析、处理有着非常大的意义。GeoIP是一套IP映射数据库，它定时更新，并且提供了各种语言的API，非常适合在做地域相关数据分析时的一个数据源。Precondition:通过 IP 地址获得用户的地理位置信息也就是根据用户的IP，通过IP数据库查询获得信息。一般IP数据库中，每条记录的基本结构：IP地址段（起始、结束），以及对应的信息数据一般包含的信息：国家、区域（省/州）、城市、街道、经纬度、ISP提供商等信息因为IP数据库随着时间经常变化（不过一段时间内变化很小），所以需要阅读全文

posted @ 2013-12-09 14:27 kalor 阅读(2802) 评论(0) 推荐(0) 编辑

Google Maps-IP地址的可视化查询

摘要：转自：http://www1.huachu.com.cn/read/readbookinfo.asp?sectionid=1000004203第3章实战Google Maps API之一——IP地理位置可视化查询3.2 根据IP定位地理位置在初步了解Google Maps API后，接下来就可以开始学习本章核心内容——根据IP定位地理位置。本节将初步介绍根据IP定位地理位置这项技术的背景，通过实例讲解如何利用MaxMind®提供的开源数据库查询某IP所在地理位... 阅读全文

posted @ 2013-12-07 21:25 kalor 阅读(3004) 评论(0) 推荐(0) 编辑

hive多表联合查询(GroupLens->Users,Movies,Ratings表)

摘要： hive (UserMovieRating)> create table if not exists Users( > UserID int comment 'user id', > Gender string comment 'user sex', > Age int comment '1:Under 18,18:18-24,25:25-34,35:35-44,45:45-49,50:50-55,56:56+', > Occupation int comment '0-20 represents diffe 阅读全文

posted @ 2013-12-06 15:18 kalor 阅读(2201) 评论(0) 推荐(0) 编辑

云计算平台管理的三大利器Nagios、Ganglia和Splunk

摘要：综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系，具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了，各大公司都购买了大量的机器，开始正式的部署和运营。而动辄上百台的性能强劲的服务器，为运营管理带来了巨大的挑战。如果没有方便的监控报警平台，对于管理员而言犹如噩梦，每天都将如救火队员一样，飞快地敲击键盘，用原始的Unix命令在多台机器中疲于奔命。如果没有好的日志管理平台，对于开发者Troubleshooting更是一件泪流满面的事情。而如果你是运维团队的总负责人，简洁清阅读全文

posted @ 2013-12-05 21:51 kalor 阅读(241) 评论(0) 推荐(0) 编辑

机器大数据也离不开Hadoop

摘要：转自：http://gtstorageworld.blog.51cto.com/908359/1286758根据数据来源划分，大数据主要包括三类：商业运作产生的数据、人类行为产生的数据和机器数据。目前，人们谈论最多的是前两类数据的处理和分析。创立于2004年的Splunk公司独树一帜，从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁 SanjayMehta在接受本报记者采访时表示，机器大数据未来具有非常广阔的发展前景。机器大数据有可为何为机器数据?人们的每项活动都会在机器数据中留下痕迹，这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确... 阅读全文

posted @ 2013-12-05 20:58 kalor 阅读(214) 评论(0) 推荐(0) 编辑

hive与hbase的整合

摘要： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive_hbase-handler.jar工具类. Hive和Hbase有各自不同的特征：hive是高延迟、结构化和面向分析的，hbase是低延迟、非结构化和面向编程的。Hive数据仓库. 阅读全文

posted @ 2013-12-05 16:27 kalor 阅读(627) 评论(0) 推荐(0) 编辑

hive优化之------控制hive任务中的map数和reduce数

摘要：转自：http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数 b) 假设input目录... 阅读全文

posted @ 2013-12-04 11:45 kalor 阅读(237) 评论(0) 推荐(0) 编辑

Hadoop管理员的十个最佳实践(转)

摘要：前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。本文基于 Cloudera CDH 3u4（同Apache Hadoop 1.0）编写。相关推荐配置为官方推荐值或者笔者经验数值，它不是绝对的，可能会因为不同的应用场景和硬件环境有所出入。1. 选择Cloudera CDH部署你的Cluster动机大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache 阅读全文

posted @ 2013-11-27 18:21 kalor 阅读(252) 评论(0) 推荐(0) 编辑

有关Hadoop的六大误解

摘要：迄今为止，Hadoop和大数据实际上是同义词。然而随着大数据的炒作不断升温，出现了很多对Hadoop如何应用于大数据的误解。 Hadoop是一种用于存储和分析大型数据集开源软件框架，可处理分布在多个现有服务器中的数据。Hadoop适合处理来自手机、电子邮件、社交媒体、传感器网络和其它不同渠道的多样化、大负荷的数据，因此通常被认为是一种大数据操作系统。而这正是第一个误解的来源： 1、Hadoop是一个完整的解决方案。事实并非如此。无论你把它称为“框架”或“平台”都可以，只是不能认为Hadoop可以解决大数据方面的所有问题。 “市场上没有标准的Hadoop产品，”《太大而无法忽略：大数据... 阅读全文

posted @ 2013-10-09 16:25 kalor 阅读(198) 评论(0) 推荐(0) 编辑

导航

2013年12月9日

2013年12月7日

2013年12月6日

2013年12月5日

2013年12月4日

2013年11月27日

2013年10月9日