2016 年 4月 30 日随笔档案 - "程序猿"~在路上

2016年4月30日

摘要：当网络爬虫将网页下载到磁盘上以后，需要对这些网页中的内容进行抽取，为索引做准备。一个网页中的数据大部分是HTML标签，索引肯定不会去索引这些标签。也就是说，这种信息是没有用处的信息，需要在抽取过程中过滤掉。另外，一个网页中一般会存在广告信息、锚文本信息，还有一些我们不感兴趣的信息，都被视为垃圾信息，阅读全文

posted @ 2016-04-30 23:19 "程序猿"~在路上阅读(860) 评论(0) 推荐(0) 编辑

ZooKeeper应用案例

摘要：我们通过学习借鉴，哪些项目或应用都使用了ZooKeeper，可以了解我们的应用使用ZooKeeper是否能真正地带来价值，当然，有些项目可能也未必非常适合使用ZooKeeper，我们要批判地学习、借鉴和吸收。下面是一些使用了ZooKeeper实现的案例： HDFS HA(QJM) Hadoop 2 阅读全文

posted @ 2016-04-30 23:11 "程序猿"~在路上阅读(2588) 评论(0) 推荐(0) 编辑

ZooKeeper架构设计及其应用要点

摘要： ZooKeeper是一个开源的分布式服务框架，它是Apache Hadoop项目的一个子项目，主要用来解决分布式应用场景中存在的一些问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置管理等，它支持Standalone模式和分布式模式，在分布式模式下，能够为分布式应用提供高性能和可靠地协调阅读全文

posted @ 2016-04-30 23:10 "程序猿"~在路上阅读(1154) 评论(0) 推荐(0) 编辑

ZooKeeper-3.3.4集群安装配置（转载）

摘要： ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，阅读全文

posted @ 2016-04-30 23:06 "程序猿"~在路上阅读(323) 评论(0) 推荐(0) 编辑

IT小言成长记

我不去想是否能够成功，既然选择了远方便只顾风雨兼程；我不去想背后会不会袭来寒风冷雨，既然目标是地平线，留给世界的只能是背影。

公告