Hadoop develop

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

随笔分类 -  云计算

摘要:1.互联网已死。2.大数据应用演进路线图。3.传统行业的数据优势。4.大数据的落地实施。 大数据必须走一条与传统行业相结合的道路,具体涉及到实施和项目落地,最为关键的一点,就是要一个大数据技术思维+传统行业的业务思维来做实施。结合和改进传统BI的思维方式。大数据的实施,不走寻常路,只是因为脚崴了;回归现实才是天使,无论她是脸着地,还是脚着地,她都是天使。 阅读全文
posted @ 2013-11-26 07:08 张子良 阅读(1915) 评论(1) 推荐(3) 编辑

摘要:大数据是一种信仰,我们一起努力吧。相信这两张图,能改变很多Hadoop从业者的命运。好文要顶,看贴要回,动手测一次吧,这是一次可以改变你命运的机会,张开双臂,让我来迎接大数据时代吧。--谨以此文,献给那些真正懂得大数据的人! 阅读全文
posted @ 2013-10-30 11:24 张子良 阅读(3452) 评论(0) 推荐(3) 编辑

摘要:上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限。通过个人实测,在我的虚拟机环境下,单线程插入数据的值约为4w/s。集群指标是:CPU双核1.83,虚拟机512M内存,集群部署单点模式。本文给出了基于多线程并发模式的,测试代码案例和实测结果,希望能给大家一些启示: 阅读全文
posted @ 2013-10-10 23:01 张子良 阅读(3742) 评论(1) 推荐(1) 编辑

摘要:HBase shell使用过程中,使用CRT客户端,命令输入后无法删除一直困绕着我,今天终于受不了,几番度娘,谷哥之后,终于有了解决方法,特共享给大家。 阅读全文
posted @ 2013-10-08 17:06 张子良 阅读(1110) 评论(0) 推荐(0) 编辑

摘要:前言:刚刚完成的HDFS高级开发培训课程课件中的一个章节,不知道PPT,如何导出HTML格式,只好批量导出图片,贴图了。连接管理:建立连接、断开连接、设置连接参数 文件操作:浏览文件、上传文件、下载文件、删除文件、导入文件(批量)、刷新列表用户管理:查看用户信息、修改用户密码 阅读全文
posted @ 2013-09-12 14:07 张子良 阅读(409) 评论(0) 推荐(0) 编辑

摘要:前言: 本文是《基于Hadoop开发网络云盘系统架构设计方案》的第二篇,针对界面原型原本考虑有两个方案:1、类windows模式,文件夹、文件方式,操作习惯完全按照Windows方式进行,提供右键菜单管理命令。2.浏览列表式,提供常规界面按钮式命令。本文采用的方式是文件清单列表式,至于第一种方式,另列专题进行说明。一、界面原型二、设计说明 连接管理:建立连接、断开连接、设置连接参数 文件操作:浏览文件、上传文件、下载文件、删除文件、导入文件(批量)、刷新列表 用户管理:查看用户信息、修改用户密码 三、遗留问题 1.文件操作长连接还是短连接问题? 2.下载优化问题?以文件/块为单位... 阅读全文
posted @ 2013-09-03 08:16 张子良 阅读(2094) 评论(0) 推荐(0) 编辑

摘要:云计算技术的发展,各种网络云盘技术如雨后春笋,层出不穷,百度、新浪、网易都推出了自己的云盘系统,本文基于开源框架Hadoop设计实现了一套自己的网络云盘系统,方案为初步设计方案,不断完善中。 阅读全文
posted @ 2013-08-28 15:29 张子良 阅读(5014) 评论(0) 推荐(4) 编辑

摘要:引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情况下,thrift自身结构可能将会成为HDFS文件存储系统的一个性能瓶颈。我们先来看一下一不使用Thrfit方式访问HDFS文件系统的业务流程。一、HDFS文件读取流程 流程说明:使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求;Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的DataNode地址;客户端开发库Client会选取离客户端最接.. 阅读全文
posted @ 2013-08-26 13:28 张子良 阅读(2302) 评论(6) 推荐(0) 编辑

摘要:虚拟化技术按照其发展历史,可以分为四个阶段:硬件仿真虚拟化、完全虚拟化、半虚拟化和操作系统虚拟化。当前阶段的虚拟化技术以半虚拟化技术为主流,操作系统虚拟化是发展方向,目前主要应用在高端应用领域。下面将从每一种虚拟化技术的原理、优点、缺点和代表产品四个方面进行介绍。 阅读全文
posted @ 2013-06-18 16:47 张子良 阅读(1582) 评论(0) 推荐(3) 编辑

摘要:基于Hadoop的云盘系统客户端技术难点之三 小文件存储优化 阅读全文
posted @ 2013-03-08 15:57 张子良 阅读(2361) 评论(0) 推荐(1) 编辑

摘要:云盘系统客户端HDFS文件安全保障主要涉及用户对HDFS文件服务集群的安全访问问题,包括某一个注册用户只能访问属于该用户的空间和某一个用户只能在HDFS空间上访问指定大小的空间两个问题。这里面是涉及一个用户管理和空间管理的问题,在此不作详细介绍。针对问题一,我们可以通过改造现有HadoopThriftServer或者新增服务机制来解决,即客户端登陆时,返回HDFS上该用户的允许访问路径,用户操作过程中进行访问路径检测,非授权路径自动过滤,不允许访问。针对第二个问题,提供用户注册机制,服务端根据用户注册的权属组,调用FSadmin设置用户文件夹的授权打小。 阅读全文
posted @ 2013-03-07 12:47 张子良 阅读(3070) 评论(0) 推荐(2) 编辑

摘要:基于Hadoop的云盘系统客户端技术难点-上传和下载效率优化 阅读全文
posted @ 2013-03-07 09:41 张子良 阅读(3440) 评论(4) 推荐(0) 编辑

摘要:Hadoop提供的客户端开发接口包括Fuse、libhdfs、Java、thrift、webhdfs等。这几种接口中,Fuse是挂载式,适合在Linux/Unix类本地管理hadoop文件,从HDFS提供的Shell管理脚本对比的角度来看,使用意义不大;libhdfs适用于Linux/Unix服务端访问HDFS存储空间,不能应用于Windows桌面终端软件的开发;Java接口,由于Java虚拟机的限制,制作的桌面软件以来域Java的JDK,需要安装配置JDK相关环境变量,不符合Windows桌面程序常用习惯;Thrift是一个不错选择,其原理是代理模式,在Hadoop服务器端启动ThriftServer支持,在客户端通过客户端库访问ThrfitServer从而实现对hdfs分布式文件存储系统的访问,这是一个不错的选择,作为开发者也可以自行扩展ThriftServer的功能;最后还有一种选择就是自行开发服务端代理,在服务器端通过libhdfs或者Java API进行开发,条件是你必须十分熟悉HDFS系统接口和技术框架体系。 阅读全文
posted @ 2013-03-06 14:52 张子良 阅读(1160) 评论(0) 推荐(0) 编辑