2017年6月9日

摘要: Basic Solution The simplest way is to build a web crawler that runs on a single machine with single thread. So, a basic web crawler should be like thi 阅读全文
posted @ 2017-06-09 09:57 橘子不是唯一的水果 阅读(302) 评论(0) 推荐(0) 编辑
 

2017年6月5日

该文被密码保护。 阅读全文
posted @ 2017-06-05 14:07 橘子不是唯一的水果 阅读(2) 评论(0) 推荐(0) 编辑
 

2017年6月4日

该文被密码保护。 阅读全文
posted @ 2017-06-04 17:46 橘子不是唯一的水果 阅读(40) 评论(0) 推荐(0) 编辑
 
摘要: Overview Apache ZooKeeper is an effort to develop and maintain an open-source server which enables highly reliable distributed coordination. zookeeper 阅读全文
posted @ 2017-06-04 09:10 橘子不是唯一的水果 阅读(171) 评论(0) 推荐(0) 编辑
 

2017年6月3日

该文被密码保护。 阅读全文
posted @ 2017-06-03 11:10 橘子不是唯一的水果 阅读(3) 评论(0) 推荐(0) 编辑
 

2017年6月2日

摘要: 1.Multi-thread Two ways to create thread: extends from thread class, or implement runnable interface (prefer). Yield() and sleeping(): yield changes t 阅读全文
posted @ 2017-06-02 14:35 橘子不是唯一的水果 阅读(371) 评论(0) 推荐(0) 编辑
 
摘要: Overview 讨论一些(分布式)(存储)系统的一致性 CAP原理 随着分布式事务的出现,传统的单机事务模型(ACID)已经无法胜任,尤其是对于一个高访问量、高并发的互联网分布式系统来说。 如何构建一个兼顾可用性和一致性的分布式系统成为了无数工程师探讨的难题。 CAP定理:一个分布式系统不可能同时 阅读全文
posted @ 2017-06-02 11:10 橘子不是唯一的水果 阅读(327) 评论(0) 推荐(0) 编辑
 

2017年5月31日

摘要: MRv1 VS MRv2 MRv1: - JobTracker: 资源管理 & 作业控制- 每个作业由一个JobInProgress控制,每个任务由一个TaskInProgress控制。由于每个任务可能有多个运行实例,因此,TaskInProgress实际管理了多个运行实例TaskAttempt,每 阅读全文
posted @ 2017-05-31 17:18 橘子不是唯一的水果 阅读(275) 评论(0) 推荐(0) 编辑
 
摘要: Overview 讨论一些常见大数据框架的容错机制 Fault Tolerance in Hadoop MapReduce Heartbeat心跳机制:如果在一定时间内没有收到心跳,则reschedule all pending and in progress tasks to another Ta 阅读全文
posted @ 2017-05-31 16:11 橘子不是唯一的水果 阅读(796) 评论(0) 推荐(0) 编辑
 

2017年5月30日

摘要: Overview HBase中的一个big table,首先会按行划分成一些region(这些region之间是有序的,由startkey保证),每个region分配到不同的节点进行存储。因此,region是HBase分布式和负载均衡的最小单元。 对每个节点而言,它会对分配到的region是按列族进 阅读全文
posted @ 2017-05-30 11:33 橘子不是唯一的水果 阅读(390) 评论(0) 推荐(0) 编辑