kalor

导航

 
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 20 下一页

2013年12月9日

摘要: landen@Master:~/UntarFile/hive-0.10.0$ bin/hive --database 'stuchoosecourse' -e 'select * from hiddenipinfo'WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.Logging initialized u 阅读全文
posted @ 2013-12-09 15:07 kalor 阅读(350) 评论(0) 推荐(0) 编辑
 
摘要: Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的 意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。Precondition:通过 IP 地址获得用户的地理位置信息也就是根据用户的IP,通过IP数据库查询获得信息。一般IP数据库中,每条记录的基本结构:IP地址段(起始、结束),以及对应的信息数据一般包含的信息:国家、区域(省/州)、城市、街道、经纬度、ISP提供商等信息因为IP数据库随着时间经常变化(不过一段时间内变化很小),所以需要 阅读全文
posted @ 2013-12-09 14:27 kalor 阅读(2769) 评论(0) 推荐(0) 编辑
 

2013年12月7日

摘要: 转自:http://www1.huachu.com.cn/read/readbookinfo.asp?sectionid=1000004203第3章 实战Google Maps API之一——IP地理位置可视化查询3.2 根据IP定位地理位置 在初步了解Google Maps API后,接下来就可以开始学习本章核心内容——根据IP定位地理位置。本节将初步介绍根据IP定位地理位置这项技术的背景,通过实例讲解如何利用MaxMind®提供的开源数据库查询某IP所在地理位... 阅读全文
posted @ 2013-12-07 21:25 kalor 阅读(2839) 评论(0) 推荐(0) 编辑
 

2013年12月6日

摘要: hive (UserMovieRating)> create table if not exists Users( > UserID int comment 'user id', > Gender string comment 'user sex', > Age int comment '1:Under 18,18:18-24,25:25-34,35:35-44,45:45-49,50:50-55,56:56+', > Occupation int comment '0-20 represents diffe 阅读全文
posted @ 2013-12-06 15:18 kalor 阅读(2188) 评论(0) 推荐(0) 编辑
 

2013年12月5日

摘要: 综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。而如果你是运维团队的总负责人,简洁清 阅读全文
posted @ 2013-12-05 21:51 kalor 阅读(234) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://gtstorageworld.blog.51cto.com/908359/1286758根据数据来源划分,大数据主要包括三类:商业运作产生的数据、人类行为产生的数据和机器数据。目前,人们谈论最多的是前两类数据的 处理和分析。创立于2004年的Splunk公司独树一帜,从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁 SanjayMehta在接受本报记者采访时表示,机器大数据未来具有非常广阔的发展前景。 机器大数据有可为 何为机器数据?人们的每项活动都会在机器数据中留下痕迹,这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确... 阅读全文
posted @ 2013-12-05 20:58 kalor 阅读(209) 评论(0) 推荐(0) 编辑
 
摘要: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类. Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库. 阅读全文
posted @ 2013-12-05 16:27 kalor 阅读(617) 评论(0) 推荐(0) 编辑
 

2013年12月4日

摘要: 转自:http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b) 假设input目录... 阅读全文
posted @ 2013-12-04 11:45 kalor 阅读(234) 评论(0) 推荐(0) 编辑
 

2013年11月27日

摘要: 前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问 题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。本文基于 Cloudera CDH 3u4(同Apache Hadoop 1.0)编写。相关推荐配置为官方推荐值或者笔者经验数值,它不是绝对的,可能会因为不同的应用场景和硬件环境有所出入。1. 选择Cloudera CDH部署你的Cluster动机大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache 阅读全文
posted @ 2013-11-27 18:21 kalor 阅读(249) 评论(0) 推荐(0) 编辑
 

2013年10月9日

摘要: 迄今为止,Hadoop和大数据实际上是同义词。然而随着大数据的炒作不断升温,出现了很多对Hadoop如何应用于大数据的误解。 Hadoop是一种用于存储和分析大型数据集开源软件框架,可处理分布在多个现有服务器中的数据。Hadoop适合处理来自手机、电子邮件、社交媒体、传感器网络和其它不同渠道的多样化、大负荷的数据,因此通常被认为是一种大数据操作系统。而这正是第一个误解的来源: 1、Hadoop是一个完整的解决方案。 事实并非如此。无论你把它称为“框架”或“平台”都可以,只是不能认为Hadoop可以解决大数据方面的所有问题。 “市场上没有标准的Hadoop产品,”《太大而无法忽略:大数据... 阅读全文
posted @ 2013-10-09 16:25 kalor 阅读(195) 评论(0) 推荐(0) 编辑
 
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 20 下一页