摘要: 当网络爬虫将网页下载到磁盘上以后,需要对这些网页中的内容进行抽取,为索引做准备。一个网页中的数据大部分是HTML标签,索引肯定不会去索引这些标签。也就是说,这种信息是没有用处的信息,需要在抽取过程中过滤掉。另外,一个网页中一般会存在广告信息、锚文本信息,还有一些我们不感兴趣的信息,都被视为垃圾信息, 阅读全文
posted @ 2016-04-30 23:19 "程序猿"~在路上 阅读(855) 评论(0) 推荐(0) 编辑
摘要: 我们通过学习借鉴,哪些项目或应用都使用了ZooKeeper,可以了解我们的应用使用ZooKeeper是否能真正地带来价值,当然,有些项目可能也未必非常适合使用ZooKeeper,我们要批判地学习、借鉴和吸收。 下面是一些使用了ZooKeeper实现的案例: HDFS HA(QJM) Hadoop 2 阅读全文
posted @ 2016-04-30 23:11 "程序猿"~在路上 阅读(2578) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper是一个开源的分布式服务框架,它是Apache Hadoop项目的一个子项目,主要用来解决分布式应用场景中存在的一些问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置管理等,它支持Standalone模式和分布式模式,在分布式模式下,能够为分布式应用提供高性能和可靠地协调 阅读全文
posted @ 2016-04-30 23:10 "程序猿"~在路上 阅读(1152) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度, 阅读全文
posted @ 2016-04-30 23:06 "程序猿"~在路上 阅读(323) 评论(0) 推荐(0) 编辑