大数据 - 随笔分类 - 成金之路

MySQL百万级、千万级数据多表关联SQL语句调优

摘要：本文不涉及复杂的底层数据结构，通过explain解释SQL，并根据可能出现的情况，来做具体的优化，使百万级、千万级数据表关联查询第一页结果能在2秒内完成(真实业务告警系统优化结果)。希望读者能够理解SQL的执行过程，并根据过程优化，走上自己的"成金之路" 需要优化的查询：使用explain 出现了U 阅读全文

posted @ 2017-02-09 22:58 成金之路阅读(58132) 评论(5) 推荐(14)

hive的基本原理

摘要：本文结合Hive paper的中文版，以及google的一些资料，对Hive的基本组成进行了总结： 1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时阅读全文

posted @ 2013-02-28 15:14 成金之路阅读(7159) 评论(1) 推荐(0)

hive+mysql安装、hive.metastore.local属性的真正用途

摘要：本文对Hive+mysql的安装做一个总结，后期会把Hive的一些资料放上来： 1.安装目标： Hive搭配远程Mysql 2.要点总结： 1).Mysql的配置：假如Hive以hive用户连接Mysql，以root用户登录Mysql： drop user hive@'%'; grant all 阅读全文

posted @ 2013-02-28 14:51 成金之路阅读(10345) 评论(0) 推荐(1)

Hadoop安装、Hadoop环境搭建(Apache)版本

摘要：今天早上帮一新人远程搭建Hadoop集群(1.x或者0.22以下版本)，感触颇深，在此写下最简单的Apache Hadoop搭建方法，给新人提供帮助，我尽量说得详尽点；点击查看Avatorhadoop搭建步骤。1.环境准备: 1).机器准备：安装目标机器要能相互ping通，所以对于不同机器上的虚拟机要采取"桥连接"的方式进行网络配置(如果是宿主方式，要先关闭宿主机防火墙；上网方式的具体配置方法请google vmvair上网配置、Kvm桥连接上网、Xen在安装的时候就能够手动配置局域网IP，实在不行，请留言)；关闭机器的防火墙：/etc/init.d/iptables st 阅读全文

posted @ 2013-02-23 09:47 成金之路阅读(782) 评论(0) 推荐(1)

zookeeper常用场景、常用方法介绍

摘要：应网友要求，介绍下zookeeper的应用场景，本文是在公司平台研发中对zookeeper(以下简称zk)的使用中得出的经验，分享给大家；如有更好的场景请添加评论，共同分享。1.ZK命令行使用、四种节点的介绍 1）。搭建好zk环境后，运行其bin目录下的zkCli.sh，即可进入zk的人机交互界面，可以随意键入字母(quit是退出命令，注意哦)并回车，查看帮助文档； 2）。节点分类： PERSISTENT：持久化目录节点，这个目录节点存储的数据不会丢失； PERSISTENT_SEQUENTIAL：顺序自动编号的目录节点，这种目录节点会根据当前已近存在的节点数自动加 1，然... 阅读全文

posted @ 2013-02-22 18:10 成金之路阅读(1569) 评论(0) 推荐(1)

一键安装zookeeper脚本制作篇相关经验浅谈

摘要：昨天在群里看到有朋友说起zookeeper的安装问题，在此分享下本人工作中安装zookeeper(下面简称zk)的经验，后面将会介绍一些生产环境中对zk的常见使用方法。1.安装包：带stable标签的zk tar包，请自行google，解压。2.安装注意点： zk的安装就三个注意的地方： 1）。conf下log4j.properties：log4j中路径和策略的指定，生产环境中，所有的日志写入日志存储盘中，所以需要修改此配置文件(ps：修改了也不会生效，还要修改启动脚本，见3); 2）。conf下zoo.cfg：将zoo.cfg.example重命令为zoo.cfg；文件中的配置... 阅读全文

posted @ 2013-02-22 13:31 成金之路阅读(1593) 评论(2) 推荐(1)

“流”式思想解决hadoop job调度的一种思路

摘要：本文基于"流"式思想解决Job调度的问题：1.关于Job调度的基本要点：什么时候启动Job、执行中的Job监控、某个Job可能需要几步完成、Job信息的存储介质、控制同一时间运行的Job个数2.方案： 1).存储介质：以javaBean的形式存储在zookeeper上 2).调度的思想： a).三棵树——prepare、working、failed，其结构分别为prepare/粒度/javaBean；working树结构为：working/粒度/步骤数/javaBean；failed为failed/javaBean; b).启动和监控逻辑：为每个粒度的Job启动一... 阅读全文

posted @ 2013-02-21 12:49 成金之路阅读(761) 评论(2) 推荐(2)

pig实战 pig常用语法总结，教你快速入门——算法篇

摘要：本文主要来源于google资料的自我总结，对常用的pig语法即“算法”进行了总结基础概念： relation bag tuple field data 关系(relation) = 包(bag) 一个包是一个元组(tuple）的集合,在pig中用{}扩起来表示一个包一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中，用()扩起来标识一个元组一个字段(field)是列数据(data)的标识；和数据库的对应关系： pig database relation/bag table tuple one record f... 阅读全文

posted @ 2013-02-19 17:31 成金之路阅读(7474) 评论(0) 推荐(0)

pig实战 pig常用语法总结，教你快速入门——结构篇

摘要：任何一种语言的学习掌握都离不开结构和算法的思想，本文将从结构方面剖析Pig常用操作后的结构，总结了其中的一些容易犯错的地方。详细语法介绍请参考http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html#Casting+Relations+to+Scalars；个人的总结请参考下一篇pig常用语法总结，教你快速入门——算法篇结构： LOAD 后的数据结构为： A: {col1: int,col2: int,col3: int,col4: double,col5: double} GROUP BY 后的数据结构为: B: {gr... 阅读全文

posted @ 2013-02-19 17:17 成金之路阅读(1193) 评论(0) 推荐(0)

hadoop源码详细解读1——类Storage

摘要：由于工作中用到了hadoop，一直想对其源码一探究竟，苦于时间有限，所以此系列希望督促自己完成hdfs的源码解读，这里先把前期对于datanode的源码详细解读放上来。学习源码是一个磨砺人的心智的过程，所以需要好好利用已有的资料(ps:百度文库里hdfs源码解析)，先从宏观上明白一组类的作用，然后再看源码围观分析；可能会非常耗时，但是明白了设计思想，对自身也是一种提高，兵贵神速，读源码贵在坚持！用途：主要用来进行版本管理，包括升级、回滚设计思路： Version的信息是一个对象StorageInfo(版本、ID、cTime) 对目录进行管理的对象StorageDirectory... 阅读全文

posted @ 2013-02-18 23:51 成金之路阅读(329) 评论(0) 推荐(0)

avatar hadoop 安装流程、hadoop/hdfs热备份方案

摘要：avator hadoop的安装是一个磨砺人心智的过程，仅在此记录曾经的辛酸：1、基本配置：hosts、防火墙、免密钥；2、浮动IP配置：安装ucarp-1.5.2-1.el6.rf.x86_64.rpm包；将ucarp.sh, vip-down.sh和vip-up.sh拷贝到主备两台机器的/etc目录下，增加执行权限: ucarp.sh#!/bin/shucarp --interface=eth0 --srcip=192.168.1.1 --vhid=24 --pass=mypassword \--192.168.1.204 \--upscript=/etc/vip-up.... 阅读全文

posted @ 2013-02-05 22:16 成金之路阅读(946) 评论(0) 推荐(0)

成金之路

The way to be shining like the gold!

随笔分类 - 大数据

公告