摘要: 答案如下: 程序代码: 阅读全文
posted @ 2016-07-26 23:07 baalhuo 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍MapReduce的map与reduce所包含的各各阶段 MapReduce中的每个map任务可以细分4个阶段:record reader、mapper、combiner和partitioner。map任务的输出被称 为中间键和中间值,会被发送到reducer做后续处理。reduce任务 阅读全文
posted @ 2016-07-25 17:45 baalhuo 阅读(14320) 评论(0) 推荐(0) 编辑
摘要: 为了更详细地探讨mapper和reducer之间的关系,并揭示Hadoop的一些内部工作机理,现在我们将全景呈现WordCount是如 何执行的,序号并非完全按照上图。 1 . 启动 调用驱动中的Job.waitForCompletion()是所有行动的... 阅读全文
posted @ 2016-07-24 10:09 baalhuo 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 0.程序是针对美团中的美食部分数据按好评排序采集。 要抓取保存的数据为: 商家名 类型 地理位置 评论人数 均价 最低价格 1.首先编写网页数据采集函数,使用request采集网页源码,具体实现如下 def getHtml(url): headers = ('User-Agen... 阅读全文
posted @ 2016-07-23 19:15 baalhuo 阅读(1282) 评论(0) 推荐(0) 编辑
摘要: HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析,是一个处理HTML的简便途径。 使用时需要定义一个继承HTMLParser的类,并重定义需要的成员函数以实现需要功能。 HTMLParser实例中几个常用方法: #为解析器提供一些数据,数据格式必须是... 阅读全文
posted @ 2016-07-21 22:37 baalhuo 阅读(821) 评论(0) 推荐(0) 编辑
摘要: Writable类 Hadoop将许多Writable类归入org.apache.hadoop.io包。形成如下图所示的类层次结构。 Writable的Java基本类封装 除char类型以外,所有的原生类型都有对应的Writable类,并且通过get和set方法(或者new的方式)可以获... 阅读全文
posted @ 2016-07-17 20:45 baalhuo 阅读(4545) 评论(0) 推荐(1) 编辑
摘要: 一、安装JDK jdk安装略去。。 二、安装zookeeper 1.下载解压。。 wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3... 阅读全文
posted @ 2016-07-12 18:54 baalhuo 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1、下划线效果 鼠标悬停下划线效果 首页 Python Java Hadoop JavaScript 文学 2、滑块效果 简单导航条 首页 Python Java Hadoop JavaScript Android 文学 ... 阅读全文
posted @ 2016-07-07 17:57 baalhuo 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 1、聚合数据 https://www.juhe.cn/ 2、数据堂 http://www.datatang.com/ 3、百度apistore http://apistore.baidu.com/ 4、APiX http://www.apix.cn/ 5、腾讯开放... 阅读全文
posted @ 2016-07-02 12:50 baalhuo 阅读(1789) 评论(0) 推荐(0) 编辑
摘要: 输入数据如下,是一个Excel表,具体数据是一个月内上网产生的流量记录,我们要做的是统计24小时每一小时的总流量。 统计结果如下: 首先使用apache poi解析Excel表格(测试数据在这里下载),每一行数据以tab隔开组成一个字符串,解析完成后以数组形式 返回,具体实现如下:... 阅读全文
posted @ 2016-07-01 17:23 baalhuo 阅读(333) 评论(0) 推荐(0) 编辑