随笔分类 - 大数据
摘要:本文不涉及复杂的底层数据结构,通过explain解释SQL,并根据可能出现的情况,来做具体的优化,使百万级、千万级数据表关联查询第一页结果能在2秒内完成(真实业务告警系统优化结果)。希望读者能够理解SQL的执行过程,并根据过程优化,走上自己的"成金之路" 需要优化的查询:使用explain 出现了U
阅读全文
摘要:本文结合Hive paper的中文版,以及google的一些资料,对Hive的基本组成进行了总结: 1、组件: 元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。 驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时
阅读全文
摘要:本文对Hive+mysql的安装做一个总结,后期会把Hive的一些资料放上来: 1.安装目标: Hive搭配远程Mysql 2.要点总结: 1).Mysql的配置: 假如Hive以hive用户连接Mysql,以root用户登录Mysql: drop user hive@'%'; grant all
阅读全文
摘要:今天早上帮一新人远程搭建Hadoop集群(1.x或者0.22以下版本),感触颇深,在此写下最简单的Apache Hadoop搭建方法,给新人提供帮助,我尽量说得详尽点;点击查看Avatorhadoop搭建步骤。1.环境准备: 1).机器准备:安装目标机器要能相互ping通,所以对于不同机器上的虚拟机要采取"桥连接"的方式进行网络配置(如果是宿主方式,要先关闭宿主机防火墙;上网方式的具体配置方法请google vmvair上网配置、Kvm桥连接上网、Xen在安装的时候就能够手动配置局域网IP,实在不行,请留言);关闭机器的防火墙:/etc/init.d/iptables st
阅读全文
摘要:应网友要求,介绍下zookeeper的应用场景,本文是在公司平台研发中对zookeeper(以下简称zk)的使用中得出的经验,分享给大家;如有更好的场景请添加评论,共同分享。1.ZK命令行使用、四种节点的介绍 1)。搭建好zk环境后,运行其bin目录下的zkCli.sh,即可进入zk的人机交互界面,可以随意键入字母(quit是退出命令,注意哦)并回车,查看帮助文档; 2)。节点分类: PERSISTENT:持久化目录节点,这个目录节点存储的数据不会丢失; PERSISTENT_SEQUENTIAL:顺序自动编号的目录节点,这种目录节点会根据当前已近存在的节点数自动加 1,然...
阅读全文
摘要:昨天在群里看到有朋友说起zookeeper的安装问题,在此分享下本人工作中安装zookeeper(下面简称zk)的经验,后面将会介绍一些生产环境中对zk的常见使用方法。1.安装包: 带stable标签的zk tar包,请自行google,解压。2.安装注意点: zk的安装就三个注意的地方: 1)。conf下log4j.properties:log4j中路径和策略的指定,生产环境中,所有的日志写入日志存储盘中,所以需要修改此配置文件(ps:修改了也不会生效,还要修改启动脚本,见3); 2)。conf下zoo.cfg:将zoo.cfg.example重命令为zoo.cfg;文件中的配置...
阅读全文
摘要:本文基于"流"式思想解决Job调度的问题:1.关于Job调度的基本要点: 什么时候启动Job、执行中的Job监控、某个Job可能需要几步完成、Job信息的存储介质、控制同一时间运行的Job个数2.方案: 1).存储介质: 以javaBean的形式存储在zookeeper上 2).调度的思想: a).三棵树——prepare、working、failed,其结构分别为prepare/粒度/javaBean;working树结构为:working/粒度/步骤数/javaBean;failed为failed/javaBean; b).启动和监控逻辑:为每个粒度的Job启动一...
阅读全文
摘要:本文主要来源于google资料的自我总结,对常用的pig语法即“算法”进行了总结基础概念: relation bag tuple field data 关系(relation) = 包(bag) 一个包是一个元组(tuple)的集合,在pig中用{}扩起来表示一个包 一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中,用()扩起来标识一个元组 一个字段(field)是列数据(data)的标识; 和数据库的对应关系: pig database relation/bag table tuple one record f...
阅读全文
摘要:任何一种语言的学习掌握都离不开结构和算法的思想,本文将从结构方面剖析Pig常用操作后的结构,总结了其中的一些容易犯错的地方。 详细语法介绍请参考http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html#Casting+Relations+to+Scalars;个人的总结请参考下一篇pig常用语法总结,教你快速入门——算法篇结构: LOAD 后的数据结构为: A: {col1: int,col2: int,col3: int,col4: double,col5: double} GROUP BY 后的数据结构为: B: {gr...
阅读全文
摘要:由于工作中用到了hadoop,一直想对其源码一探究竟,苦于时间有限,所以此系列希望督促自己完成hdfs的源码解读,这里先把前期对于datanode的源码详细解读放上来。 学习源码是一个磨砺人的心智的过程,所以需要好好利用已有的资料(ps:百度文库里hdfs源码解析),先从宏观上明白一组类的作用,然后再看源码围观分析;可能会非常耗时,但是明白了设计思想,对自身也是一种提高,兵贵神速,读源码贵在坚持! 用途: 主要用来进行版本管理,包括升级、回滚设计思路: Version的信息是一个对象StorageInfo(版本、ID、cTime) 对目录进行管理的对象StorageDirectory...
阅读全文
摘要:avator hadoop的安装是一个磨砺人心智的过程,仅在此记录曾经的辛酸:1、基本配置:hosts、防火墙、免密钥;2、浮动IP配置: 安装ucarp-1.5.2-1.el6.rf.x86_64.rpm包; 将ucarp.sh, vip-down.sh和vip-up.sh拷贝到主备两台机器的/etc目录下,增加执行权限: ucarp.sh#!/bin/shucarp --interface=eth0 --srcip=192.168.1.1 --vhid=24 --pass=mypassword \--192.168.1.204 \--upscript=/etc/vip-up....
阅读全文