会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
baalhuo
博客园
首页
新随笔
联系
管理
订阅
2016年7月26日
hadoop面试题目
摘要: 答案如下: 程序代码:
阅读全文
posted @ 2016-07-26 23:07 baalhuo
阅读(248)
评论(0)
推荐(0)
编辑
2016年7月25日
MapReduce中的map与reduce
摘要: 本文主要介绍MapReduce的map与reduce所包含的各各阶段 MapReduce中的每个map任务可以细分4个阶段:record reader、mapper、combiner和partitioner。map任务的输出被称 为中间键和中间值,会被发送到reducer做后续处理。reduce任务
阅读全文
posted @ 2016-07-25 17:45 baalhuo
阅读(14320)
评论(0)
推荐(0)
编辑
2016年7月24日
MapReduce程序的运行全貌
摘要: 为了更详细地探讨mapper和reducer之间的关系,并揭示Hadoop的一些内部工作机理,现在我们将全景呈现WordCount是如 何执行的,序号并非完全按照上图。 1 . 启动 调用驱动中的Job.waitForCompletion()是所有行动的...
阅读全文
posted @ 2016-07-24 10:09 baalhuo
阅读(333)
评论(0)
推荐(0)
编辑
2016年7月23日
使用Python抓取美团数据存于Excel中
摘要: 0.程序是针对美团中的美食部分数据按好评排序采集。 要抓取保存的数据为: 商家名 类型 地理位置 评论人数 均价 最低价格 1.首先编写网页数据采集函数,使用request采集网页源码,具体实现如下 def getHtml(url): headers = ('User-Agen...
阅读全文
posted @ 2016-07-23 19:15 baalhuo
阅读(1282)
评论(0)
推荐(0)
编辑
2016年7月21日
Python中使用HTMLParser解析HTML文档
摘要: HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析,是一个处理HTML的简便途径。 使用时需要定义一个继承HTMLParser的类,并重定义需要的成员函数以实现需要功能。 HTMLParser实例中几个常用方法: #为解析器提供一些数据,数据格式必须是...
阅读全文
posted @ 2016-07-21 22:37 baalhuo
阅读(821)
评论(0)
推荐(0)
编辑
2016年7月17日
Hadoop数据类型
摘要: Writable类 Hadoop将许多Writable类归入org.apache.hadoop.io包。形成如下图所示的类层次结构。 Writable的Java基本类封装 除char类型以外,所有的原生类型都有对应的Writable类,并且通过get和set方法(或者new的方式)可以获...
阅读全文
posted @ 2016-07-17 20:45 baalhuo
阅读(4545)
评论(0)
推荐(1)
编辑
2016年7月12日
Storm0.9.5单机版
摘要: 一、安装JDK jdk安装略去。。 二、安装zookeeper 1.下载解压。。 wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3...
阅读全文
posted @ 2016-07-12 18:54 baalhuo
阅读(197)
评论(0)
推荐(0)
编辑
2016年7月7日
简单通用的导航条
摘要: 1、下划线效果 鼠标悬停下划线效果 首页 Python Java Hadoop JavaScript 文学 2、滑块效果 简单导航条 首页 Python Java Hadoop JavaScript Android 文学 ...
阅读全文
posted @ 2016-07-07 17:57 baalhuo
阅读(190)
评论(0)
推荐(0)
编辑
2016年7月2日
免费API数据接口
摘要: 1、聚合数据 https://www.juhe.cn/ 2、数据堂 http://www.datatang.com/ 3、百度apistore http://apistore.baidu.com/ 4、APiX http://www.apix.cn/ 5、腾讯开放...
阅读全文
posted @ 2016-07-02 12:50 baalhuo
阅读(1789)
评论(0)
推荐(0)
编辑
2016年7月1日
MapReduce自定义输入格式
摘要: 输入数据如下,是一个Excel表,具体数据是一个月内上网产生的流量记录,我们要做的是统计24小时每一小时的总流量。 统计结果如下: 首先使用apache poi解析Excel表格(测试数据在这里下载),每一行数据以tab隔开组成一个字符串,解析完成后以数组形式 返回,具体实现如下:...
阅读全文
posted @ 2016-07-01 17:23 baalhuo
阅读(333)
评论(0)
推荐(0)
编辑
下一页
公告