上一页 1 2 3 4 5 6 ··· 26 下一页
摘要: 昨天下午线上辅集群加机器扩容,扩容的机器在运行一段时间后线上有block lost的告警,从Nameserver(NS)的日志上发现,扩容的新机器上有多次加入集群和退出集群的记录,最初我怀疑是扩容后,集群做容量负载均衡,大量数据往新加入的节点迁移,导致新机器负载高,从而出现心跳信息没有及时到达NS的情况,此时NS认为Dataserver(DS)宕机,如果有一个block的多个副本都被迁入到新扩容的... 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 12月03日03:50左右,有多台Dataserver(DS)内存占用飙升,如10.246.70.71 dataserver 3,常驻内存突然飙升到21G,并且一直没有释放。查看dataserver的日志,发现大量的read v2失败 ,返回值主要是-8025(block不存在), -8016(文件被删除或隐藏)。但这些失败信息从0点开始一直很多,而且这两种失败不会导致DS分配很多内存,所以应该跟内存问题没关系。在3:50左右5分钟内,发现readv2 success的日志很多,主要集中在3:48,3:49,3:50这3分钟内,3分钟的readv2请求超过4w,平均每秒200+,每个文件请求都 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(322) 评论(0) 推荐(0) 编辑
摘要: SNIA的云存储标准(Cloud Data Mamangement Interface,CDMI)出来有一段时间了,目前云存储战场竞争激烈,标准的到来给云存储服务提供了指导作用,期待未来有美好的一天,所有的云存储提供商都遵循这个标准,让标准真正的发挥作用,让互联网用户受益。 理想很丰满,现实很骨感,制定标准跟标准落地还有很长的一段距离,标准的合理性首先需要得到检验并不断的改善,而... 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 2012年,结束了长达19年的校园生活长跑,走上了工作岗位,开始人生一个新的起点。我的工作其实跟在实验室差不多,依然是分布式存储领域,公司简单的同事关系就跟在学校同学一般纯真,每天上班依旧是一辆破自行车,甚至连距离都跟宿舍去实验室差不多,还有在学校的同学雷雷、小鳄、宝仔在同一个组工作。 新人学习 入职后加入TFS(Taobao File System)项目组... 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(176) 评论(0) 推荐(0) 编辑
摘要: google开源的gflags是一套命令行参数解析工具,比getopt功能更强大,使用起来更加方便,gflags还支持从环境变量、配置文件读取参数(可用gflags代替配置文件)。本文简单介绍gflags的使用,内容主要译自 http://gflags.googlecode.com/svn/trunk/doc/gflags.html 。 定义参数 使用flags需要包含头文件 #i... 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(657) 评论(0) 推荐(0) 编辑
摘要: linux socket使用16bit无符号整型表示端口号,最大到65535。关于端口号,有一个经典的误解就是,因为端口号有限,所以一个客户端最多建立65536个socket连接,但实际上并不是这么回事,端口是可以复用的。 一个socket连接是一个[srcip, srcport, destip, destport]组成的四元组,如果再算上协议(tcp、udp、rawsocket等)就是五... 阅读全文
posted @ 2013-04-19 14:14 ydzhang 阅读(2808) 评论(0) 推荐(0) 编辑
摘要: 昨日线上一台机器上的nginx rt飙高,@明俨 调查发现这台机器上的metaserver内存占用很高,同时还有个奇怪的现象,df发现/home的空间占用在增长飞快,但metaserver和nginx的日志文件增长都很慢,通过du -sh /home统计home下文件的总大小,发现跟df命令/home占用的空间小10+g,到底谁占用了我的磁盘空间? 后来把nginx进程都停掉后(当时应该先通过ls... 阅读全文
posted @ 2013-04-19 14:13 ydzhang 阅读(3869) 评论(0) 推荐(0) 编辑
摘要: 配置参数 在工程实践中,我们通常把一些需要测量才能确定最佳取值的参数以可配置的形式处理,但实际上大部分的参数可能只是一个可行值,而不是一个最佳值。 1. DS与NS之间的心跳间隔设置:NS通过心跳来确定DS的状态,心跳间隔太短,NS容易出现误判,有时短暂的网络断开也会被NS认定为DS宕机;而心跳间隔过长,NS就不能及时发现宕机的DS,导致的问题是,NS复制丢失block的时间点会被延迟,影响系... 阅读全文
posted @ 2013-04-19 14:13 ydzhang 阅读(528) 评论(1) 推荐(0) 编辑
摘要: 系统架构师大会分享 View more presentations or Upload your own. 管理员在2009年8月13日编辑了该文章文章。 --> --> 阅读全文
posted @ 2013-04-19 14:13 ydzhang 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 英文原文:http://www.theserverside.com/tip/A-return-to-Good-Code 中文译文:http://www.aqee.net/a-return-to-good-code/ 文章作者认为,函数应该是单出口的,即只在结束时return;读书期间,我写代码的风格是多return的,使代码尽量简短。在百度和淘宝工作期间,我们的代码规范都是要求函数单出口,刚开始写... 阅读全文
posted @ 2013-04-19 14:13 ydzhang 阅读(1079) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 26 下一页