摘要:
Scrapy教程 原文地址 此教程我们假设你已经装好了Scrapy,如果没有请查看 "安装指南" .。 我们将要抓取 "quotes.toscrape.com" 网站,这个网站展示了很多名人名言。 此教程指导你完成一下任务: 1. 新建一个Scrapy工程 2. 编写一个spider爬网站提取数据 阅读全文
摘要:
Scrapy一览 原文地址 Scrapy是一个应用程序框架,为各种各样的应用程序爬取网站提取结构化数据,如数据挖掘,信息处理或者历史档案。 Scrapy不止可以做网站的数据提取,也可以用于APIs(如 Amazon Associates Web Services)的数据提取或者作为专用的web蜘蛛。 阅读全文
摘要:
原文地址 安装Scrapy Scrapy运行在python2.7和python3.3或以上版本(Windows还不支持python3)。 如果你已经熟悉python包的安装,你可以安装Scrapy使用它的PyPI依赖: 我们强烈建议你把Scrapy安装在一个 "专用的虚拟环境中" ,以避免和你的系统 阅读全文
摘要:
此页面列举了Storm的主要概念和资源连接。讨论的概念有: 1. 拓扑(Topologies) 2. 流(Streams) 3. Spouts 4. Bolts 5. 流分组(Stream groupings) 6. 可靠性(Reliability) 7. 任务(Tasks) 8. Workers 阅读全文
摘要:
此教程假设你刚刚开始没有任何 Kafka 或 ZooKeeper 数据。Kafka的控制台脚本在类Unix和Windows平台不同,Windows平台使用 代替 ,脚本的扩展名改为 。 第一步:下载代码 下载0.10.1.0发行版并解压。 第二步:启动服务 Kafka使用Zookeeper,所以如果 阅读全文
摘要:
介绍 Kafka是一个分布式流平台。这究竟代表什么。 我们认为的流平台有这三个关键的功能: 1. 它使得你可以发布和订阅记录流。这方面类似一个消息队列或者企业消息系统。 2. 它使得你可以在灾难发生时存储留记录。 3. 它使得你可以处理发生的记录流。 Kafka适合干什么? 它被用于两大类应用程序: 阅读全文
摘要:
目的 这篇文档描述如何安装和配置一个单一节点的Hadoop,以便你可以快速使用hadoop mapreduce和Hadoop Distributed File System (HDFS)的一些简单操作。 先决条件 支持平台 GNU/Linux 是受支持的开发和生成平台。Hadoop已经证明了2000 阅读全文
摘要:
实际上,在真实环境中你需要使用完全分布配置完整测试HBase。在一个分布式配置中,集群有多个节点,每个节点运行一个或多个HBase守护进程。其中包括主Master和备份Master实例,多个Zookeeper节点,多个RegionServer节点。 这个进阶教程将在你的集群上另加两个节点。架构如下: 阅读全文
摘要:
介绍 概述 Apache Flume是为有效收集聚合和移动大量来自不同源到中心数据存储而设计的可分布,可靠的,可用的系统。 Apache Flume的用途不仅限于日志数据聚合。由于数据源是可定制的,Flume可用于传输大量事物数据包括但不限于网络流量数据,社交媒体产生的数据,Email消息和很多其它 阅读全文
摘要:
默认已装好 1. hbase,我的版本是hbase 0.98.24,并运行 2. python 2.7.x 步骤: 1. sudo apt get install automake bison flex g++ git libboost all dev libevent dev libssl dev 阅读全文