zhizhesky - 博客园

聚技术-Hadoop 聚会小结

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2011-08-19 23:32 zhizhesky 阅读(8) 评论(0) 推荐(0) 编辑

摘要：作者：July、wuliming、pkuoliver出处：http://blog.csdn.net/v_JULY_v。说明：本文分为三部分内容，第一部分为一道百度面试题Top K算法的详解；第二部分为关于Hash表算法的详细阐述；第三部分为打造一个最快的Hash表算法。------------------------------------第一部分：Top K 算法详解问题描述百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一阅读全文

posted @ 2011-08-18 22:45 zhizhesky 阅读(400) 评论(0) 推荐(0) 编辑

infobright: 基于mysql的数据仓库（data warehouse）

摘要：原文：http://www.wentrue.net/blog/?p=283日志分析原来一直用：Archive存储引擎+Partition分区Archive存储引擎只支持INSERT和SELECT操作，MySQL 5.1开始支持索引。其使用zlib算法将数据行（row）进行压缩后存储，压缩比率一般可达1∶10。正如其名称所示，Archive存储引擎非常适合存储归档数据，如日志信息。Archive存储引擎使用行锁来实现高并发的插入操作，但是本身并不是事物安全的存储引擎，其设计目标主要是提供高速的插入和压缩功能。前些天捧起hongqn拿给我的＜mysql性能调优与架构设计＞，翻起第一章，还没进入my 阅读全文

posted @ 2011-08-18 15:34 zhizhesky 阅读(551) 评论(0) 推荐(0) 编辑

Hadoop权威指南(原版)

摘要：阅读全文

posted @ 2011-08-18 13:35 zhizhesky 阅读(133) 评论(0) 推荐(0) 编辑

hadoop状态分析系统chukwa和在百度的应用实践(转)

摘要： Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。概述 chukwa 的官方网站是这样描述自己的： chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的，继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的阅读全文

posted @ 2011-08-18 13:25 zhizhesky 阅读(1193) 评论(0) 推荐(0) 编辑

MySQL 5.1 分区技术初探-转自百度运维

摘要：原文：http://hi.baidu.com/ops_bd/blog/item/84ab644ca0131be783025c63.htmlMySQL分区技术是用来减轻海量数据带来的负担，解决数据库性能下降问题的一种方式，其他的方式还有建立索引，大表拆小表等等。 MySQL分区按照分区的参考方式来分有RANGE分区、LIST分区、HASH分区、KEY分区。本文对这几种分区方式进行了详细的介绍，并且给出了简单的示例，文章简洁明了，对于想要初步了解MySQL分区技术的同学来说是很不错的参考材料。一、背景介绍当MySQL中一个表的总记录数超过了1000万，会出现性能的大幅度下降吗？答案是肯定的。但性阅读全文

posted @ 2011-08-18 13:10 zhizhesky 阅读(263) 评论(0) 推荐(0) 编辑

Hadoop性能调优-配置文件和作业调度算法

摘要： reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适，比如cluster中有32台datanode,每台8 core，那么reduce设置为128速度最快。因为每台机器8 core，4个作map,4个作reduce计算，正好合适。附小测试：对同一个程序 reduce num=32,reduce time = 6 min reduce num=128, reduce time = 2 min reduce num=320, reduce time = 5min1. 通常每个服务器的Map + Reduce总数跟cpu核阅读全文

posted @ 2011-08-18 13:07 zhizhesky 阅读(456) 评论(0) 推荐(0) 编辑

各大网站架构总结笔记(转)

摘要：原文：http://www.cnblogs.com/sxwgf/archive/2011/08/16/2141632.html整理得比较清晰，就转载了1、MySpace架构回顾了MySpace的成长史，真是让人惊叹，他的架构基本经历了五个里程碑，每个阶段都是显得那么仓促，那么无奈，那么坎坷，又是那么的精彩，网站为了生存只能想尽一切办法去优化系统架构，让用户满意。他给我们后人的启示是要尽早发现系统的瓶颈，设计师在设计时要有前瞻思想，否则今后有可能也要这样仓促的升级你的产品。这里是“五个里程碑”的具体介绍。2、Flickr网站架构总结Flickr.com 是网上最受欢迎的照片共享网站之一，还记得那阅读全文

posted @ 2011-08-18 11:23 zhizhesky 阅读(182) 评论(0) 推荐(0) 编辑

mysql 主从同步原理转

摘要： Replication 线程 Mysql的 Replication 是一个异步的复制过程，从一个 Mysql instace(我们称之为 Master)复制到另一个 Mysql instance(我们称之 Slave)。在 Master 与 Slave 之间的实现整个复制过程主要由三个线程来完成，其中两个线程(Sql线程和IO线程)在 Slave 端，另外一个线程(IO线程)在 Master 端。要实现 MySQL 的 Replication ，首先必须打开 Master 端的Binary Log(mysql-bin.xxxxxx)功能，否则无法实现。因为整个复制过程实际上就是Slave从M 阅读全文

posted @ 2011-08-17 21:30 zhizhesky 阅读(513) 评论(0) 推荐(0) 编辑

MySQL锁机制/管理(并发锁,行锁,表锁,预加锁,全局锁等等) 转自 MySQL实验室

摘要： MySQL实验室1.MySQL中并发和隔离控制机制Meta-data元数据锁：在table cache缓存里实现的，为DDL（Data Definition Language）提供隔离操作。一种特别的meta-data元数据类型，叫Name Lock。（SQL层）表级table-level数据锁（SQL层）存储引擎特有机制 — row locks行锁，page locks页锁，table locks表级，版本控制（在引擎中实现）全局读锁 — FLUSH TABLES WITH READ LOCK（SQL层）2.在语句执行中表的生命周期DML（Data Manipulation Language 阅读全文

posted @ 2011-08-17 21:24 zhizhesky 阅读(356) 评论(0) 推荐(0) 编辑

半夜ATM机前看书的那位

导航

公告