摘要: 一、HttpClient简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包, 并且它支持 HTTP 协议最新的版本和建议。 官方站点:http://hc.apache.org/ 最新版本 阅读全文
posted @ 2018-10-16 23:15 -草根-颜 阅读(1189) 评论(0) 推荐(0) 编辑
摘要: 前言 其实前面写的那一点点东西都是轻轻点水,其实HttpClient还有很多强大的功能: (1)实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等) (2)支持自动转向 (3)支持 HTTPS 协议 (4)支持代理服务器等 一、HttpClient使用代理IP 1.1、前言 在爬取 阅读全文
posted @ 2018-10-16 23:15 -草根-颜 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、作业的默认配置 二、作业的配置方式 三、Mapper类和Reducer类以及它们的子类(实现类) 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 前言 前面 阅读全文
posted @ 2018-10-16 23:06 -草根-颜 阅读(756) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、Combiner概述 1.1、为什么需要Combiner 1.2、Combiner介绍 二、使用Combiner优化Mapduce执行 2.1、使用前提 2.2、怎么使用 2.3、利用Combiner计算每一年的平均气温 2.4、计算每一年每个气象站的平均温度 1.1 阅读全文
posted @ 2018-10-16 23:05 -草根-颜 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、统计好友对数(去重) 1.1、数据准备 1.2、需求分析 1.3、代码实现 二、词频统计 2.1、数据准备 2.2、需求分析 2.3、代码实现 2.4、 运行测试 三、成绩统计 3.1、数据准备 3.2、需求分析 3.3、代码实现 3.4、执行 四、倒排索引 4.1、 阅读全文
posted @ 2018-10-16 23:00 -草根-颜 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、MapReduce并行处理的基本过程 二、MapRrduce输入与输出问题 三、MapReduce实际处理流程 四、一个job的运行流程 4.1、提交作业 4.2、作业初始化 4.3、任务的分配 4.4、任务的执行 4.5、更新任务的执行进度和状态 4.6、任务完成 阅读全文
posted @ 2018-10-16 22:59 -草根-颜 阅读(719) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、写一个MapReduce程序例子 1.1、数据准备 1.2、需求分析 1.3、编写一个解析类解析天气数据 1.4、编写一个MapReduce程序求1992I年的最高温度 1.5、使用Maven打包Jar包上传到Hadoop客户端的Linux服务器中 二、分析上面Map 阅读全文
posted @ 2018-10-16 22:58 -草根-颜 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、背景 二、大数据的并行计算 三、Hadoop的MapReduce概述 3.1、需要MapReduce原因 3.2、MapReduce简介 3.3、MapReduce编程模型 四、编写MapReduce程序 4.1、数据样式与环境 4.2、需求分析 4.3、代码实现 3 阅读全文
posted @ 2018-10-16 22:57 -草根-颜 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、数据完整性概述 二、HDFS的数据完整性 2.1、本地文件上传到HDFS集群时的校验 2.2、HDFS集群文件读取到本地 三、涉及数据一致性的类:LocalFileSystem和RawFileSystem 3.1、概述 3.2、编写程序验证 2.1、本地文件上传到HD 阅读全文
posted @ 2018-10-16 22:56 -草根-颜 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、序列化和反序列化概述 1.1、序列化和反序列化的定义 1.2、序列化和反序列化的应用 1.3、RPC序列化格式要求 二、Hadoop中和虚序列化相关的接口和类 1.1、Hadoop对基本数据类型的包装 1.2、Writable接口 1.3、实例解释Java和Hadoo 阅读全文
posted @ 2018-10-16 22:56 -草根-颜 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、压缩(Compression)概述 1.1、压缩的好处 1.2、压缩格式总结 二、编解码器(Codec)概述 三、Java编程实现文件的压缩与解压缩 3.1、原理分析 3.2、相关类和方法 3.3、Java将本地文件压缩上传到集群当中 3.4、Java将集群文件解压缩 阅读全文
posted @ 2018-10-16 22:55 -草根-颜 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 1.2、数据块(data block)简介 1.3、对分布式文件系统中的块进行抽象会带来很多好处 二、Java访问HDFS中的数据块 2.1、相关类和方法介绍 2.2、编写程序访问 二、Java查看HDFS集 阅读全文
posted @ 2018-10-16 22:54 -草根-颜 阅读(1262) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS读取过程 二、HDFS的写入过程 三、通过实例说明HDFS的读写操作 3.1、写入操作 3.2、读取操作 四、图解HDFS的读取写入过程 4.1、角色出演 4.2、读取操作 3.2、写入操作 3.1、写入操作 3.2、读取操作 4.1、角色出演 4.2、读取操 阅读全文
posted @ 2018-10-16 22:53 -草根-颜 阅读(3197) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS容错机制 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1.4、读写容错 1.5、数据节点(DN)失效 二、HDFS备份规则 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1. 阅读全文
posted @ 2018-10-16 22:53 -草根-颜 阅读(672) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、Hadoop客户端配置 二、Java访问HDFS集群 2.1、HDFS的Java访问接口 2.2、Java访问HDFS主要编程步骤 2.3、使用FileSystem API读取数据文件 三、实战Java访问HDFS集群 3.1、环境介绍 3.2、查询HDFS集群文件系 阅读全文
posted @ 2018-10-16 22:52 -草根-颜 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS概述 1.1、HDFS概述 1.2、HDFS的概念和特性 1.3、HDFS的局限性 1.4、HDFS保证可靠性的措施 二、HDFS基本概念 2.1、HDFS主从结构体系 2.2、数据块(DataBlock) 2.3、名字节点(主节点:NameNode) 2.4 阅读全文
posted @ 2018-10-16 22:51 -草根-颜 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、搭建Hadoop全分布式集群前提 1.1、网络 1.2、安装jdk 1.3、安装hadoop 二、Hadoop全分布式集群搭建的配置 2.1、hadoop-env.sh 2.2、core-site.xml 2.3、hdfs-site.xml 2.4.mapred-si 阅读全文
posted @ 2018-10-16 22:50 -草根-颜 阅读(3760) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、引言(大数据时代) 1.1、从数据中得到信息 1.2、大数据表象概念 二、大数据基础 2.1、什么是大数据? 2.2、大数据的基本特征 2.3、大数据的意义 2.4、大数据的系统架构(整体架构) 2.5、大数据处理平台 2.6、大数据中的几个概念 三、Hadoop概述 阅读全文
posted @ 2018-10-16 22:49 -草根-颜 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode) 1.2、伪分布式模式(Pseudo-Distrubuted Mode) 1.3、全分布式集群模式(Full-Distributed Mode) 二、搭建 阅读全文
posted @ 2018-10-16 22:49 -草根-颜 阅读(1611) 评论(0) 推荐(0) 编辑
摘要: 工作中一直都是用Git作为版本控制,只是知道简单的几个命令,没有去了解它的内部原理。所以周末有时间来系统学习。 现在的公司基本上都是用Git作为版本控制,当然也有SVN的。 Git是目前世界上最先进的分布式版本控制系统。那什么是版本控制系统呢? 如果你用Microsoft Word写过长篇大论,那你 阅读全文
posted @ 2018-10-16 22:46 -草根-颜 阅读(947) 评论(0) 推荐(0) 编辑