2013 年 12月随笔档案 - 代码王子

sql将查询结果建立为新表

摘要：1.sqlserver中，使用： select * into tab_new from tab_old SELECT * into anzhiresult from (select * from factdownloads_new where storename='anzhi') b 复制表结... 阅读全文

posted @ 2013-12-31 18:09 代码王子阅读(5473) 评论(0) 推荐(0) 编辑

sql的sum函数（与group by，having子句混合使用）

摘要：SELECT Customer,SUM(OrderPrice) FROM Orders WHERE Customer='Bush' OR Customer='Adams' GROUP BY Customer HAVING SUM(OrderPrice)>1500 Select sum(d... 阅读全文

posted @ 2013-12-31 17:43 代码王子阅读(1147) 评论(0) 推荐(0) 编辑

mysql的基本操作

摘要：转自青蛙学堂： http://www.cnitblog.com/yide/archive/2012/03/07/77962.html 一、连接mysql。格式： mysql -h主机地址 -u用户名－p用户密码 1、例1：连接到本机上的mysql。首先在打开DOS窗口，然后进入目录mys... 阅读全文

posted @ 2013-12-31 15:53 代码王子阅读(237) 评论(0) 推荐(0) 编辑

Android WebKit 内核

摘要：一、WebKit简介 WebKit是一个开源的浏览器网页排版引擎，包含WebCore排版引擎和JSCore引擎。WebCore和JSCore引擎来自于KDE项目的KHTML和KJS开源项目。Android平台的Web引擎框架采用了WebKit项目中的WebCore和JSCore部分，上层由Ja... 阅读全文

posted @ 2013-12-30 18:55 代码王子阅读(862) 评论(0) 推荐(0) 编辑

myfirstBI项目总结

摘要：app 应用信息统计： saiku安装：http://blog.csdn.net/longshenlmj/article/details/17359645 workbench解压即用，http://blog.csdn.net/longshenlmj/article/details/17530... 阅读全文

posted @ 2013-12-30 15:58 代码王子阅读(118) 评论(0) 推荐(0) 编辑

Mahout Bayes分类

摘要：Mahout Bayes分类器是按照《Tackling the Poor Assumptions of Naive Bayes Text Classiers》论文写出来了，具体查看论文实现包括三部分：The Trainer（训练器）、The Model（模型）、The Classifier... 阅读全文

posted @ 2013-12-30 12:20 代码王子阅读(206) 评论(0) 推荐(0) 编辑

HBase 快照操作

摘要：1.配置hbase-site.xml hbase.snapshot.enabled true 2.创建快照 hbase> snapshot 'myTable', 'myTableSnapshot-122112' hbase>list_snapshots 3.删除快照del... 阅读全文

posted @ 2013-12-29 05:25 代码王子阅读(381) 评论(0) 推荐(0) 编辑

HBase表重命名

摘要：hbase shell> disable 'tableName'hbase shell> snapshot 'tableName', 'tableSnapshot'hbase shell> clone_snapshot 'tableSnapshot', 'newTableName'hbase ... 阅读全文

posted @ 2013-12-29 05:18 代码王子阅读(539) 评论(0) 推荐(0) 编辑

HBase集群部署脚本

摘要：#!/bin/bash # Sync HBASE_HOME across the cluster. Must run on master using HBase owner user. HBASE_HOME=/usr/local/hbase/current for rs in `cat $HBA... 阅读全文

posted @ 2013-12-29 05:11 代码王子阅读(157) 评论(0) 推荐(0) 编辑

hbase 集群管理脚本

摘要：#!/bin/bash # Show all running Java processes on region servers. Must run on master using HBase owner user. JAVA_HOME=/usr/local/jdk1.6 HBASE_HOME=/... 阅读全文

posted @ 2013-12-29 05:10 代码王子阅读(104) 评论(0) 推荐(0) 编辑

Hbase replication操作

摘要：1.修改hbase-site.xml文件 hbase.replication true 2.同步数据改变,重启hbase集群 3.创建备份表 hbae>create 'reptable1', { NAME => 'cf1', REPLICATION_SCOPE =>1} 3.hbase... 阅读全文

posted @ 2013-12-29 05:08 代码王子阅读(333) 评论(0) 推荐(0) 编辑

HBase replication

摘要：Hbase Replication 介绍现状 Hbase 的replication目前在业界使用并不多见，原因有很多方面，比如说HDFS目前已经有多份备份在某种程度上帮助HBASE底层数据的安全性，而且很多公司的集群规模比较小并且对数据重要程度并不是很高，比如一些日志系统或者是作为一... 阅读全文

posted @ 2013-12-29 04:48 代码王子阅读(211) 评论(0) 推荐(0) 编辑

Hbase 备份的方式

摘要：HBase 备份的方式有三种： 1.下线备份（1）停止集群。（2）Distcp (3)restore 2.在线备份 -replication 3.在线北大 -CopyTable 4.在线备份-Export 阅读全文

posted @ 2013-12-29 04:43 代码王子阅读(142) 评论(0) 推荐(0) 编辑

Hbase节点管理

摘要：1.退役节点 (1) shell>balance_switch false 然后，hbase-daemon.sh stop regionserver (2) graceful_stop.shUsage: graceful_stop.sh [--config &conf-dir>] ... 阅读全文

posted @ 2013-12-29 04:31 代码王子阅读(380) 评论(0) 推荐(0) 编辑

HBase提供的工具

摘要：1 .压缩测试工具 hbase org.apache.hadoop.hbase.util.CompressionTest 1G数据不同的压缩算法得到的结果 +--------------------+--------------+ | MODIFIER | SIZE ... 阅读全文

posted @ 2013-12-29 03:47 代码王子阅读(306) 评论(0) 推荐(0) 编辑

HBase 健康检查工具

摘要：在HBase运维中最常用的工具就是hbck. 查看整个集群的表状况。如果region很多，建议慎重使用，会比较慢，而采用（3）。（1）hbase hbck 详细显示集群状况。 (2)hbase hbck -details 显示指定表的状况。 (3) hbase h... 阅读全文

posted @ 2013-12-29 03:07 代码王子阅读(387) 评论(0) 推荐(0) 编辑

HBase Canary

摘要：HBase Canary 用于检测HBase 系统的状态。它对指定表的每一个region 抓取一行，来探测失败或者延迟。 hbase org.apache.hadoop.hbase.tool.Canary -help Usage: bin/hbase org.apac... 阅读全文

posted @ 2013-12-29 02:34 代码王子阅读(499) 评论(0) 推荐(0) 编辑

HBase Bulk Loading

摘要：将数据导入到HBase有三种方式：（1） Mapreduce，输出为TableOutputFormat.(2) 用HBase API .(3)Bulk Loading。对于大量的数据入库，第三种数据是最为有效的。下图描述了Bulk Loading的过程：先将数据（MySQL ,Ora... 阅读全文

posted @ 2013-12-29 02:11 代码王子阅读(283) 评论(0) 推荐(0) 编辑

有用的技术网站

摘要：淘宝：http://www.taobaotesting.com/blogs/2156 http://www.alidata.org/archives http://www.searchtb.com/ MYSQL数据仓库： http://books.brainy... 阅读全文

posted @ 2013-12-29 00:09 代码王子阅读(106) 评论(0) 推荐(0) 编辑

HBase 运维分析

摘要：问题分析的主要手段 1、监控系统：首先用于判断系统各项指标是否正常，明确系统目前状况 2、服务端日志：查看例如region移动轨迹，发生了什么动作，服务端接受处理了哪些客户端请求。 3、gc日志：gc情况是否正常 4、操作系统日志和命令：操作系统层面、硬件是否故障，当前状况如何 5、btrace... 阅读全文

posted @ 2013-12-29 00:06 代码王子阅读(120) 评论(0) 推荐(0) 编辑

HBase rest

摘要：HBase Rest 是建立在HBase java 客户端基础之上的，提供的web 服务。它存在的目的是给开发者一个更多的选择。 1.启动rest 服务（1）hbase rest start 用默认的方式启动rest服务，端口是8080。（2）hbase rest s... 阅读全文

posted @ 2013-12-28 23:26 代码王子阅读(396) 评论(0) 推荐(0) 编辑

hbase mlockall

摘要：mlockall 头文件：#include 函数原型：int mlockall(int flags); flags: MCL_CURRENT ——Lock all pages which are currently mapped into the address space ... 阅读全文

posted @ 2013-12-28 22:18 代码王子阅读(351) 评论(0) 推荐(0) 编辑

Jamon

摘要：1.Jamon java 模版引擎 eclipse 插件 http://www.jamon.org/eclipse/updates 2.Jamon 官方网站 http://www.jamon.org/ 3.hbase web 监控界面就是用它做的模版引擎阅读全文

posted @ 2013-12-28 22:02 代码王子阅读(232) 评论(0) 推荐(0) 编辑

java 调用JRuby

摘要：1.core package vanilla;import org.jruby.embed.ScriptingContainer;public class HelloWorld { private HelloWorld() { ScriptingContainer c... 阅读全文

posted @ 2013-12-28 21:39 代码王子阅读(433) 评论(0) 推荐(0) 编辑

hbase thrift 访问队列

摘要：public class CallQueue implements BlockingQueue { private static Log LOG = LogFactory.getLog(CallQueue.class); private final BlockingQueue unde... 阅读全文

posted @ 2013-12-28 20:59 代码王子阅读(132) 评论(0) 推荐(0) 编辑

hbase thrift 定义

摘要：/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with... 阅读全文

posted @ 2013-12-28 20:40 代码王子阅读(255) 评论(0) 推荐(0) 编辑

BI过程简述

摘要：BI流程：需求分析->维度设计->查询service->ETL倒数据->CDC监听数据库需求分析：首先确定好的数据来源（多个数据库+excel文件+日志+...），需要的数据查询项（measure值）维度设计: 分析维度出发点，几个w:who ,where,when,wha... 阅读全文

posted @ 2013-12-27 19:33 代码王子阅读(171) 评论(0) 推荐(0) 编辑

kettle控件 add a checksum

摘要：This step calculates checksums for one or more fields in the input stream and adds this to the output as a new field. 为数据流输入的列计算校验码，并将输出作为新的一列。 wi... 阅读全文

posted @ 2013-12-27 17:10 代码王子阅读(949) 评论(0) 推荐(0) 编辑

navicat为mysql建立索引

摘要：索引的目的是大大提高查询效率，还有读写效率。 kettle向sql里面插入，更新时，也要建立索引，可以大大提升处理时间。但是建立索引报错：Specified key was too long; max key length is 1000 bytes 这是mysql中，索引字段的类型设置的总... 阅读全文

posted @ 2013-12-26 14:01 代码王子阅读(1046) 评论(0) 推荐(0) 编辑

红黑树

摘要：红黑树是一种自平衡二叉查找树，在O(log n)时间内做查找，插入和删除等操作。统计性能优化于平衡二叉树（AVL树）。红黑两色保证树的高度近似平衡，节点是五元组：color（颜色），key（数据），left（左孩子），right（右孩子）和p（父节点）。颜色是红或者黑。根和叶子必须是... 阅读全文

posted @ 2013-12-26 11:24 代码王子阅读(102) 评论(0) 推荐(0) 编辑

schema workbench的操作

摘要：1.schema workbench连不上sql，如下：看不懂，这是驱动的问题，你只要使用最新的驱动，mysql-connector-java-5.1.13-bin.jar 将对应驱动放入schema workbench.bat文件所在目录中，drivers目录下，然后直接设置改为： ... 阅读全文

posted @ 2013-12-24 15:46 代码王子阅读(226) 评论(0) 推荐(0) 编辑

sql记录查询重复注意事项（经验提升），in的用法和效率

摘要：sql查询重复记录，使用： select * from dimappnamenew as appn where id in ( select id from dimappnamenew group by packagename,storename,app_name having cou... 阅读全文

posted @ 2013-12-24 15:25 代码王子阅读(293) 评论(0) 推荐(0) 编辑

sql表别名

摘要：sql表别名的用法：as http://www.w3school.com.cn/sql/sql_alias.asp select * from kettleoutputtable a where a.os =2 and storename = 'anzhi' 和 select * fro... 阅读全文

posted @ 2013-12-24 14:02 代码王子阅读(582) 评论(0) 推荐(0) 编辑

sql记录去重（SQL查询或者删除表中重复记录）

摘要：1、查找表中多余的重复记录，重复记录是根据单个字段（peopleId）来判断 select*from people where peopleIdin (select peopleIdfrom peoplegroupby peopleIdhaving count(peopleId)>1) ... 阅读全文

posted @ 2013-12-24 13:48 代码王子阅读(1479) 评论(0) 推荐(0) 编辑

kettle 的表输出 table output

摘要：kettle的表输出：双击后，看设置， 1，在connecttion后面，点击new里新建一个。设定各个选项值，如选择mysql类型，则配置hostname，database name，端口，用户名，密码，一般java里用jdbc连接。 2，然后，可以设定是否truncate table。注... 阅读全文

posted @ 2013-12-20 16:53 代码王子阅读(1486) 评论(0) 推荐(0) 编辑

kettle内存溢出

摘要：ETL工具kettle，在老版设计后，使用新版时，居然发生了内存溢出的错误：出现： java heap 或者 OutOfMemory等字样这是kettle分配的内存不足。在kettle的运行路径中，用文本编辑器打开Spoon.bat，找到: REM ***************... 阅读全文

posted @ 2013-12-19 20:11 代码王子阅读(455) 评论(0) 推荐(0) 编辑

数据挖掘十大算法

摘要：什么是机器学习；机器学习的主要任务：分类，回归。分类：是将实例数据划分到合适的分类中。回归：是用于预测数值型数据。比如：数据拟合曲线（通过给定数据点的最优拟合曲线）。如何选择合适的算法；如何保证算法的正确性：（1）确保算法应用可以正确处理简单数据。（2）将现实世界中得到的数据格式化为... 阅读全文

posted @ 2013-12-18 18:03 代码王子阅读(247) 评论(0) 推荐(0) 编辑

win7待机时间设置，睡眠时间设置

摘要：首先，单击“开始”找到“控制面板” 步骤阅读 2 打开“控制面板”以后，单击右侧的“硬件和声音” 步骤阅读 3 找到“电源选项”中的“更改计算机睡眠时间” 步骤阅读 4 然后，就进入更改界面了，你可以更改“使计算机进入睡眠状态的时间”即，电脑在无人操作的... 阅读全文

posted @ 2013-12-18 14:05 代码王子阅读(388) 评论(0) 推荐(0) 编辑

navicat里导入和导出.sql文件

摘要：一：Navicat导入MySQL的.sql文件。打开连接connection，选择你要导入的数据库，双击打开（或者新建一个），然后右键该数据库，选“运行批次任务文件（execute sql file）”，然后选择文件。或者新建一个查询，从那里选择导入，选择文件。但是比较大的.sql文... 阅读全文

posted @ 2013-12-17 16:36 代码王子阅读(1143) 评论(0) 推荐(0) 编辑

windows下mysql免安装配置

摘要：我下载的是mysql-5.5.20-win32.zip版本 1、解压 2、配置环境变量（让系统知道你的bin在哪个位置）path里面设置到安装目录的bin目录 3、复制一个my-huge.ini 另存一个文件my.ini 打开my.ini，在最后面添加 basedir=D:\softbak\we... 阅读全文

posted @ 2013-12-17 15:07 代码王子阅读(298) 评论(0) 推荐(0) 编辑

saiku的安装教程

摘要：Saiku是一个模块化的开源分析套件，它提供轻量级的OLAP（联机分析处理），并且可嵌入、可扩展、可配置。环境准备 1、JDK5及以上版本。 2、Saiku Server最新版本，下载地址：http://analytical-labs.com/downloads.php。提示：本人因与领... 阅读全文

posted @ 2013-12-16 20:02 代码王子阅读(559) 评论(0) 推荐(0) 编辑

thrift实现HDFS文件操作

摘要：thrift 文件如下 namespace java com.pera.file.transform struct File{ 1:string path , 2:string content, } service FileTransform { bool ex... 阅读全文

posted @ 2013-12-16 14:50 代码王子阅读(141) 评论(0) 推荐(0) 编辑

hadoop 数据倾斜

摘要：数据倾斜是指，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导... 阅读全文

posted @ 2013-12-13 16:36 代码王子阅读(307) 评论(0) 推荐(0) 编辑

软件工程师 Book

摘要：一、软件工程师 --Clean Code《代码整洁之道》 --Implementation Patterns《实现模式》 --Code Complete《代码大全》 --Refactoring: Improving the Design of Existing Code《重构——改善既有... 阅读全文

posted @ 2013-12-12 22:28 代码王子阅读(120) 评论(0) 推荐(0) 编辑

hive使用过的基本命令

摘要：命令：完成操作 hive：进去hive show databases：显示所有database use wizad：使用database wizad，或者如use aso show tables：显示当前database下的所有表 show columns from table_nam... 阅读全文

posted @ 2013-12-12 21:33 代码王子阅读(406) 评论(0) 推荐(0) 编辑

hadoop任务监控页面namenode:50030(在hadoop配置中查找集群jobtracker的ip，访问50030)

摘要：公司集群，配置的hadoop。执行job，想去看看运行状态，却不知道jobtracker的机器ip：查询hadoop 的jobtrack机器的ip，就查看文件conf/mapred-site.xml mapred.job.tracker node1:49001 mapred.loc... 阅读全文

posted @ 2013-12-12 21:27 代码王子阅读(754) 评论(0) 推荐(0) 编辑

有关java的引用传递，直接操作对象本身。直接删除BE的value中某值

摘要：HashSet refRegions = BE.get(regionName); HashSet values = new HashSet(); values.addAll(refRegions); if(values.contains("AllValues")){ ... 阅读全文

posted @ 2013-12-12 16:09 代码王子阅读(110) 评论(0) 推荐(0) 编辑

Treemap 有序的hashmap。用于排序

摘要：TreeMap：有固定顺序的hashmap。在需要排序的Map时候才用TreeMap。 Map。在数组中我们是通过数组下标来对其内容索引的，键值对。 HashMap HashMap 用哈希码快速定位一个键，但是元素存储无序。HashMap的实现是假定元素是放在一个圆形的环上，每次put进来... 阅读全文

posted @ 2013-12-12 15:55 代码王子阅读(456) 评论(0) 推荐(0) 编辑

ssh keygen命令实现免密码通信（git库获取操作权限：开发人员添加到git库中，获取操作权限）

摘要：先看两个机器实现免密码登陆通讯：假设 A 为客户机器，B为目标机；要达到的目的： A机器ssh登录B机器无需输入密码；加密方式选 rsa|dsa均可以，默认dsa 做法： 1、登录A机器 2、ssh-keygen -t [rsa|dsa]，将会生成密钥文件和私钥文件 id_rsa,id... 阅读全文

posted @ 2013-12-12 15:15 代码王子阅读(243) 评论(0) 推荐(0) 编辑

git config配置文件

摘要：有一点知识的人，直接看下面更加简短的描述：一.Git已经在你的系统中了，你会做一些事情来客户化你的Git环境。只需设置一次；即使你升级了，他们也会绑定到你的环境中。你也可以在任何时刻通过运行命令来重新更改这些设置。 Git工具被称为git config，允许你获得和设置配置变量；这... 阅读全文

posted @ 2013-12-12 14:03 代码王子阅读(328) 评论(0) 推荐(0) 编辑

微信---风云际会霸天下

摘要：无线端的三分天下无线互联网逐渐成形。群雄逐鹿，微信一统移动无线端，广告推广线上线下，视频方向网购方向游戏唯一堵不死的 app的开发和应用腾讯，引天下创意为我用。再加上写轮眼似的高精尖复制团队（腾讯人全是卡卡西），土豪的推广方式。成就南方霸业已成定居。目前，纵观互联网，尚可... 阅读全文

posted @ 2013-12-09 16:26 代码王子阅读(105) 评论(0) 推荐(0) 编辑

Hadoop基本知识，（以及MR编程原理）

摘要：hadoop核心是：MapReduce和HDFS （对应着job执行（程序）和文件存储系统（数据的输入和输出）） CRC32作数据交验：在文件Block写入的时候除了写入数据还会写入交验信息,在读取的时候需要交验后再读入。安全模式：不能写或删文件。系统启动时检查各个DataNode上... 阅读全文

posted @ 2013-12-09 16:09 代码王子阅读(457) 评论(0) 推荐(0) 编辑

java获取时间

摘要：string startTimeStr = ((String) jsonCampaign.get(configObj.getKeyword(config.START_TIME))); if(!startTimeStr.contains(" ")){ ... 阅读全文

posted @ 2013-12-09 16:04 代码王子阅读(160) 评论(0) 推荐(0) 编辑

java时间操作

摘要：这篇讲的也很专业：http://soft.zdnet.com.cn/software_zone/2007/1129/660028.shtml java中的时间操作不外乎这四种情况： 1、获取当前时间 2、获取某个时间的某种格式 3、设置时间 4、时间的运算好，下面就针对这四种情况，一个一个... 阅读全文

posted @ 2013-12-09 15:21 代码王子阅读(218) 评论(0) 推荐(0) 编辑

Git diff

摘要：把本地的代码和index中的代码进行比较，或者是把index中的代码和本地仓库中的代码进行比较。 1）Git diff 比较工作目录和Index中的代码。 2） Git diff - - cached 比较index和本地仓库中的代码。但发现本地有更新，又是在linux环境下，没... 阅读全文

posted @ 2013-12-05 16:33 代码王子阅读(164) 评论(0) 推荐(0) 编辑

git rebase之前需要commit才行

摘要：更新好本地代码后，git fetch，接着合并，但是git rebase 不行， git status一看，有很多更新的文件。于是 git add --后，再rebase，还是不行。注意，rebase之前，如果本地有更新，一定要先commit，才行，否则合并不了。阅读全文

posted @ 2013-12-05 16:32 代码王子阅读(596) 评论(0) 推荐(0) 编辑

mahout系列----Dirichlet 分布

摘要：Dirichlet分布可以看做是分布之上的分布。如何理解这句话，我们可以先举个例子：假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的... 阅读全文

posted @ 2013-12-05 09:47 代码王子阅读(246) 评论(0) 推荐(0) 编辑

mahout系列----minhash聚类

摘要：Map: Vector featureVector = features.get(); if (featureVector.size() > 24); bytesToHash[1] = (byte) (value >> 16); bytesToH... 阅读全文

posted @ 2013-12-05 00:25 代码王子阅读(215) 评论(0) 推荐(0) 编辑

mahout系列之---谱聚类

摘要：1.构造亲和矩阵W 2.构造度矩阵D 3.拉普拉斯矩阵L 4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量 5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类亲和矩阵：W_ij=exp(-(d(s_i,s_j)/2o^2)) ... 阅读全文

posted @ 2013-12-05 00:05 代码王子阅读(206) 评论(0) 推荐(0) 编辑

jvm内存查看与分析工具

摘要：2.3 JVM的垃圾收集策略 GC的执行时要耗费一定的CPU资源和时间的，因此在JDK1.2以后，JVM引入了分代收集的策略，其中对新生代采用"Mark-Compact"策略，而对老生代采用了“Mark-Sweep"的策略。其中新生代的垃圾收集器命名为“minor gc”，老生代的GC命名... 阅读全文

posted @ 2013-12-04 16:10 代码王子阅读(167) 评论(0) 推荐(0) 编辑

JVM内存模型及垃圾收集策略解析

摘要：JVM内存模型是Java的核心技术之一，之前51CTO曾为大家介绍过JVM分代垃圾回收策略的基础概念，现在很多编程语言都引入了类似Java JVM的内存模型和垃圾收集器的机制，下面我们将主要针对Java中的JVM内存模型及垃圾收集的具体策略进行综合的分析。一 JVM内存模型 1.1 Java栈... 阅读全文

posted @ 2013-12-04 16:07 代码王子阅读(134) 评论(0) 推荐(0) 编辑

CopyOnWriteArrayList

摘要：除了加锁外，其实还有一种方式可以防止并发修改异常，这就是将读写分离技术（不是数据库上的）。先回顾一下一个常识： 1、JAVA中“=”操作只是将引用和某个对象关联，假如同时有一个线程将引用指向另外一个对象，一个线程获取这个引用指向的对象，那么他们之间不会发生ConcurrentModific... 阅读全文

posted @ 2013-12-04 15:29 代码王子阅读(171) 评论(0) 推荐(0) 编辑

Herriot

摘要：Herriot测试框架是Hadoop-0.21.0及以后版本中新加入的测试框架，它的出现主要是为了尽可能地模拟真实的大规模分布式系统，并且对该系统实现自动化测试。和Hadoop以前的测试框架MiniDFSCluster类似，Herriot也采用了JUnit框架，此外，Herriot还引入了面向切... 阅读全文

posted @ 2013-12-04 01:31 代码王子阅读(284) 评论(0) 推荐(0) 编辑

Prefix tree

摘要：Prefix tree The trie, or prefix tree, is a data structure for storing strings or other sequences in a way that allows for a fast look-up. In its sim... 阅读全文

posted @ 2013-12-04 01:10 代码王子阅读(253) 评论(0) 推荐(0) 编辑

hadoop 测试框架

摘要：hadoop 0.21以前的版本中（这里拿0.20为例，其他版本可能有少许不同），所有的测试相关代码都是放置在${HADOOP_HOME}/src/test下，在该目录下，是按照不同的目录来区分针对不同模块的测试代码。这里需要了解的是：对于相应的hadoop代码和class的包结构，在test中... 阅读全文

posted @ 2013-12-04 01:01 代码王子阅读(618) 评论(0) 推荐(0) 编辑

Hadoop RPC

摘要：hadoop rpc机制 && 将avro引入hadoop rpc机制初探 1 RPC RPC(Remote Procedure Call)——远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。 2 hadoop.ipc 2.1 Server RPC Se... 阅读全文

posted @ 2013-12-04 00:52 代码王子阅读(132) 评论(0) 推荐(0) 编辑

HFile

摘要：HFile存储格式 HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括两种文件类型： 1. HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底... 阅读全文

posted @ 2013-12-04 00:48 代码王子阅读(342) 评论(0) 推荐(0) 编辑

hbase介绍

摘要：一、简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007... 阅读全文

posted @ 2013-12-04 00:46 代码王子阅读(160) 评论(0) 推荐(0) 编辑

Paxos 算法

摘要：1 概述 Paxos算法是莱斯利·兰伯特（Leslie Lamport，就是 LaTeX 中的"La"，此人现在在微软研究院）于1990年提出的一种基于消息传递的一致性算法。[1] 这个算法被认为是类似算法中最有效的。 2写在之前 Paxos 算法解决的问题是一个分布式系统如何就某个值（决议）... 阅读全文

posted @ 2013-12-04 00:42 代码王子阅读(171) 评论(0) 推荐(0) 编辑

ZooKeeper leader election

摘要：Paxos是分布式应用中解决同步问题的核心。作为应用研发工程师，我们总是倾向于使用一种相对简洁的方式实现复杂的算法。ZooKeeper leader election实现就是一个非常好的参考。其实现比标准Paxos算法简单，基本过程是： 1 ... 阅读全文

posted @ 2013-12-04 00:39 代码王子阅读(353) 评论(0) 推荐(0) 编辑

zookeeper 应用开发

摘要：由于zookeeper的client只有zookeeper一个对象，使用也比较简单，所以就不许要文字说明了，在代码中注释下就ok 了。 1、测试用的main方法 package ClientExample;public class TestMain { public static void ma... 阅读全文

posted @ 2013-12-04 00:09 代码王子阅读(349) 评论(0) 推荐(0) 编辑

ZooKeeper 数据模型

摘要：本文主要讲述ZooKeeper的数据模型，包括ZooKeeper的数据视图，节点的层次结构以及节点类型等基本属性。Zookeeper的视图结构类似标准的Unix文件系统，但是没有引入文件系统相关概念：目录和文件，而是使用了自己特有的节点(node)概念，称为znode。Znode是ZooKeep... 阅读全文

posted @ 2013-12-04 00:07 代码王子阅读(145) 评论(0) 推荐(0) 编辑

zookeeper 原理

摘要：zookeeper介绍 zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用 zookeeper的... 阅读全文

posted @ 2013-12-04 00:05 代码王子阅读(169) 评论(0) 推荐(0) 编辑

zookeeper 事务日志

摘要：前面提到，在zookeeper server的配置文件zoo.cfg中可以通过dataLogDir来配置zookeeper的事务日志的输出目录,这个事务日志类似于下面这样的文件: 这个文件是一个二进制文件, 一般不能够直接识别, 那么是否有方法可以把这些事务日志转换成正常日志文件呢, 答... 阅读全文

posted @ 2013-12-03 23:51 代码王子阅读(314) 评论(0) 推荐(0) 编辑

ZooKeeper客户端事件串行化处理

摘要：为了提升系统的性能，进一步提高系统的吞吐能力，最近公司很多系统都在进行异步化改造。在异步化改造的过程中，肯定会比以前碰到更多的多线程问题，上周就碰到ZooKeeper客户端异步化过程中的一个死锁问题，这里说明下。通常ZooKeeper对于同一个API，提供了同步和异步两种调用方式。同步接口很... 阅读全文

posted @ 2013-12-03 23:49 代码王子阅读(183) 评论(0) 推荐(0) 编辑

ZooKeeper 权限管理

摘要：这其中一个显而易见的问题就是权限：如果我的数据被别人动了怎么办？方案一：采用ZooKeeper支持的ACL digest方式，用户自己定义节点的权限这种方案将zookeeper的acl和digest授权认证模式相结合。具体操作流程如下：可以把... 阅读全文

posted @ 2013-12-03 23:47 代码王子阅读(817) 评论(0) 推荐(0) 编辑

ZooKeeper 会话超时

摘要：1、会话概述在ZooKeeper中，客户端和服务端建立连接后，会话随之建立，生成一个全局唯一的会话ID(Session ID)。服务器和客户端之间维持的是一个长连接，在SESSION_TIMEOUT时间内，服务器会确定客户端是否正常连接(客户端会定时向服务器发送heart_beat，服务器重置... 阅读全文

posted @ 2013-12-03 23:46 代码王子阅读(1341) 评论(0) 推荐(0) 编辑

ZooKeeper API

摘要：ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务框架，包含一组简单的原语集合。通过这些原语言的组合使用，能够帮助我们解决更高层次的分布式问题，关于ZooKeeper的典型使用场景，请查看这个文章《ZooKeeper典型使用场景一览》本文主要针对ZooKeeper提供的Java... 阅读全文

posted @ 2013-12-03 23:44 代码王子阅读(121) 评论(0) 推荐(0) 编辑

Zookeeper监控

摘要：在公司内部，有不少应用已经强依赖zookeeper，zookeeper的工作状态直接影响它们的正常工作。目前开源世界中暂没有一个比较成熟的zookeeper-monitor,于是开始zookeeper监控这块工作。目前zookeeper-monitor能做哪些事情，讲到这个，首先来看看哪些因... 阅读全文

posted @ 2013-12-03 23:42 代码王子阅读(187) 评论(0) 推荐(0) 编辑

部署与管理ZooKeepe

摘要：1.部署本章节主要讲述如何部署ZooKeeper，包括以下三部分的内容： 1. 系统环境 2. 集群模式的配置 3. 单机模式的配置系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生产环境的ZK集群。如果仅仅是想在单机上将ZK运行起来，进行一些开发与测试，那么第三部分或许是你的... 阅读全文

posted @ 2013-12-03 23:40 代码王子阅读(344) 评论(0) 推荐(0) 编辑

ZooKeeper的快速搭建

摘要：本文是ZooKeeper的快速搭建，旨在帮助大家以最快的速度完成一个ZK集群的搭建，以便开展其它工作。本方不包含多余说明及任何调优方面的高级配置。如果要进行更深一层次的配置，请移步《ZooKeeper管理员指南——部署与运维》。单机模式（7步） Step1：配置JAVA环境。检验方法：... 阅读全文

posted @ 2013-12-03 23:39 代码王子阅读(134) 评论(0) 推荐(0) 编辑

ZooKeeper典型应用场景

摘要：ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归... 阅读全文

posted @ 2013-12-03 23:34 代码王子阅读(202) 评论(0) 推荐(0) 编辑

ActiveMQ 入门

摘要：1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.5.1-bin.zip，然后双击apache-activemq-5.5.1\bin\activemq.bat运行ActiveMQ程... 阅读全文

posted @ 2013-12-03 22:29 代码王子阅读(130) 评论(0) 推荐(0) 编辑

thrift入门

摘要：目录：概述下载配置基本概念数据类型服务端编码基本步骤客户端编码基本步骤数据传输协议实例演示（java） thrift生成代码实现接口IfaceTSimpleServer服务模型TThreadPoolServer 服务模型TNonblockingServer 服务模型THs... 阅读全文

posted @ 2013-12-03 14:59 代码王子阅读(244) 评论(0) 推荐(0) 编辑

HashMap是无序的

摘要：一、说明 HashMap是基于哈希表Map的实现。设计初衷主要是为了解决键值（key-value）对应关联的，HashMap的优势是可以很快的根据键（key）找到该键对应的值（value），但是我们在使用的过程中需要注意一下，HashMap是一种无序的存储结构。HashMap的实现是假定元素是... 阅读全文

posted @ 2013-12-02 18:15 代码王子阅读(329) 评论(0) 推荐(0) 编辑

mysql随笔

摘要：MySQL查询优化器--非SPJ的优化 MySQL查询优化器--非SPJ优化（一）--GROUPBY优化 http://blog.163.com/li_hx/blog/static/1839914132013101503920225/ MySQL查询优化器--非SPJ优化（二）--ORDER... 阅读全文

posted @ 2013-12-02 16:32 代码王子阅读(65) 评论(0) 推荐(0) 编辑

hadoop小知识札记

摘要：hadoop实现全局变量：只读的可以，可修改的不行，只读的可以通过configuration 或者分布式缓存实现。 hadoop做图像处理时，每个map读入一个图片,每个map读入一张图片，然后所有的map还要读取一张全局图片再两张图片一起处理每个map读取一个，会产生太多的map，... 阅读全文

posted @ 2013-12-02 16:29 代码王子阅读(85) 评论(0) 推荐(0) 编辑

12 2013 档案

导航

公告

搜索

常用链接

随笔档案