2015年11月12日
摘要: 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使... 阅读全文
posted @ 2015-11-12 16:33 风浪 阅读(10210) 评论(0) 推荐(0) 编辑
  2015年11月11日
摘要: Redis简介Redis是一个开源的,使用C语言编写,面向“键/值”对类型数据的分布式NoSQL数据库系统,特点是高性能,持久存储,适应高并发的应用场景。Redis纯粹为应用而产生,它是一个高性能的key-value数据库,并且提供了多种语言的API性能测试结果表示SET操作每秒钟可达110000次... 阅读全文
posted @ 2015-11-11 20:19 风浪 阅读(284) 评论(0) 推荐(0) 编辑
  2015年11月9日
摘要: SQL Server 2005镜像配置基本概念我理解的SQL Server 2005镜像配置实际上就是由三个服务器(也可以是同一服务器的三个 SQL 实例)组成的一个保证数据的环境,分别是:主服务器、从服务器、见证服务器。主服务器:数据存放的地方从服务器:数据备份的地方(即:主服务器的镜像)见证服务... 阅读全文
posted @ 2015-11-09 17:32 风浪 阅读(1369) 评论(0) 推荐(0) 编辑
摘要: 网站规模到了一定程度之后,该分的也分了,该优化的也做了优化,但是还是不能满足业务上对性能的要求;这时候我们可以考虑使用主从库。主从库是两台服务器上的两个数据库,主库以最快的速度做增删改操作+最新数据的查询操作;从库负责查询较旧数据,做一些对实效性要求较小的分析,报表生成的工作。这样做将数据库的压力... 阅读全文
posted @ 2015-11-09 17:25 风浪 阅读(6805) 评论(0) 推荐(2) 编辑
摘要: http://blog.itpub.net/29500582/viewspace-1249319/ 阅读全文
posted @ 2015-11-09 17:23 风浪 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 网上大部分关于nginx负载均衡集群的教程都是linux环境。如何实现在windows配置nginx实现负载均衡集群一、 windows上安装nginx1、下载nginx网上大部分关于nginx负载均衡集群的教程都是linux环境。如何实现在windows配置nginx实现负载均衡集群一、 wind... 阅读全文
posted @ 2015-11-09 17:17 风浪 阅读(18213) 评论(0) 推荐(0) 编辑
摘要: 因为项目遇到大量图片存储问题,虽然现在我们图片还不是很多(目前在1T上下,预计增长速度每年1.3倍的增长速度),自己在思考如何有效地存储大量图片时,查找一些资料,看到了,有人使用Nginx搭建服务器,本着学习的目的,自己也亲自去体验了一下nginx在window下的安装过程,并配合iis搭建一个负载... 阅读全文
posted @ 2015-11-09 17:13 风浪 阅读(1931) 评论(0) 推荐(0) 编辑
  2015年9月15日
摘要: 1、实战Memcached缓存系统(1)Memcached基础及示例程序内容:建筑Memcached背景知识和入门示例程序。2、实战Memcached缓存系统(2)Memcached Java API基础之MemcachedClient内容:以Memcached的Java Spy API为例,讲述基... 阅读全文
posted @ 2015-09-15 20:28 风浪 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 废话不说,配置NLB需要准备以下环境:1. 至少两个服务器,我的是windows server 2008 R2;我的两个服务器名分别为NLB3和NLB2,其中NLB3是主,为什么呢?后面会谈到,在配置时通过设置优先级。2. NLB3和NLB2已安装IIS服务。NLB的交互结构图如下:其中:DC是个派... 阅读全文
posted @ 2015-09-15 16:43 风浪 阅读(10378) 评论(3) 推荐(2) 编辑
摘要: 在这里http://blog.csdn.net/haoxiaozigang1/article/details/12198679跟大家分享了NLB配置的过程,下面写一些对NLB不同情况的下测试的结果:首先,准备一些工具:1. Fiddler2,用来查看请求的分配情况,当然这个工具还有其他强大的功能,今... 阅读全文
posted @ 2015-09-15 16:43 风浪 阅读(1690) 评论(0) 推荐(0) 编辑
  2015年7月31日
摘要: 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 ... 阅读全文
posted @ 2015-07-31 17:04 风浪 阅读(442) 评论(0) 推荐(0) 编辑
  2015年7月27日
摘要: 当一个Web系统从日访问量10万逐步增长到1000万,甚至超过1亿的过程中,Web系统承受的压力会越来越大,在这个过程中,我们会遇到很多的问题。为了解决这些性能压力带来问题,我们需要在Web系统架构层面搭建多个层次的缓存机制。在不同的压力阶段,我们会遇到不同的问题,通过搭建不同的服务和架构来解决。 ... 阅读全文
posted @ 2015-07-27 17:01 风浪 阅读(604) 评论(3) 推荐(2) 编辑
  2015年4月28日
摘要: (1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFile... 阅读全文
posted @ 2015-04-28 17:06 风浪 阅读(684) 评论(0) 推荐(0) 编辑
  2015年4月17日
摘要: 最近做的一个Web项目,需要在网页中播放摄像头采集的实时视频,我们已经有了播放视频的使用C#编写的windows控件,如何将其嵌入到网页中去了?这需要使用一种古老的技术,ActiveX。1.将.Net控件转化为ActiveX控件 首先要做的就是将我们的windows视频播放控件转化为ActiveX控... 阅读全文
posted @ 2015-04-17 14:09 风浪 阅读(1884) 评论(0) 推荐(0) 编辑
  2015年4月1日
摘要: 本文基于ThriftSource,MemoryChannel,HdfsSink三个组件,对Flume数据传输的事务进行分析,如果使用的是其他组件,Flume事务具体的处理方式将会不同。一般情况下,用MemoryChannel就好了,我们公司用的就是这个,FileChannel速度慢,虽然提供日志级别... 阅读全文
posted @ 2015-04-01 16:08 风浪 阅读(2505) 评论(0) 推荐(0) 编辑
  2015年3月20日
摘要: 介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.githu... 阅读全文
posted @ 2015-03-20 15:17 风浪 阅读(11505) 评论(0) 推荐(0) 编辑
  2015年3月18日
摘要: 前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。我们知道,在mapred-site.xml配置文件里面有个mapred.child.java.opts配... 阅读全文
posted @ 2015-03-18 15:22 风浪 阅读(957) 评论(0) 推荐(0) 编辑
摘要: 由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1.Apache Hadoop1.1Apache版本衍化截至目前(2012年12月23日)... 阅读全文
posted @ 2015-03-18 14:38 风浪 阅读(7655) 评论(0) 推荐(0) 编辑
  2015年3月17日
摘要: TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模... 阅读全文
posted @ 2015-03-17 15:05 风浪 阅读(356) 评论(0) 推荐(0) 编辑
摘要: Hadoop平台的最大优势就是充分地利用了廉价的PC机,这也就使得集群中的工作节点存在一个重要的问题——节点所在的PC机内存资源有限(这里所说的工作节点指的是TaskTracker节点),执行任务时常常出现内存不够的情况,如:堆溢出错误;同时,该PC机也可能部署了其它集群的工作节点。针对这个问题,H... 阅读全文
posted @ 2015-03-17 14:36 风浪 阅读(948) 评论(0) 推荐(0) 编辑