2018年1月2日

吴恩达神经网络 - 第一课学习笔记

摘要: 0.前言 什么是神经网络? 神经网络是上个世纪出现的产物,其思想就是模拟人体神经网络的方式来实现机器的自主学习。他在许多领域都会有使用,例如:语音识别、图像识别、语言翻译等。 神经网络的思想如下图所示: 假设 $x_1$表示房价;$x_2$表示房子大小;$x_3$买房者所拥有的资金;$x_4$表示房 阅读全文

posted @ 2018-01-02 10:24 erygreat 阅读(1115) 评论(0) 推荐(3) 编辑

2017年8月13日

hadoop2.x之IO:基于文件的数据结构

摘要: 备注 二进制文件广义上讲是所有文件(在物理上所有文件都是二进制编码)。狭义上是指文本文件以外的文件 。而文本文件又是指ASCII或unicode编码的文件,二者在物理上没有本质的区别,只是逻辑上的概念。所以二进制文件在这里指的是所有文件。 Hadoop主要处理日志文件,其中每一行文本代表一条日志记录 阅读全文

posted @ 2017-08-13 09:56 erygreat 阅读(158) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:序列化

摘要: 序列化 是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。 反序列化 是指将字节流转回结构化对象的逆过程。 假设我们创建了一个类People,里面两个属性:name和age。在我们JVM没有关闭且该实例没有销毁的时候,我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销 阅读全文

posted @ 2017-08-13 09:45 erygreat 阅读(202) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:MapReduce压缩

摘要: 前面我们说到了hadoop的压缩,在Hadoop所运行的数据一般都是很大的,输入的数据很大,输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。 如果我们想对Reduce进行压缩,有两种方法,一种是配置使用Configuration配置。另一种是还是用FileOutputFor 阅读全文

posted @ 2017-08-13 09:32 erygreat 阅读(169) 评论(0) 推荐(0) 编辑

hadoop2.x之IO:压缩和解压缩

摘要: 文件压缩可以降低存储需要的空间,并且在传输过程中加快传输速度。因此对于大量数据的处理时,压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。 有许多压缩方式,如下: |压缩格式|工具|算法|文件拓展名|是否可切分| | | | | | | |DEFLATE|无|DEFLATE|.defla 阅读全文

posted @ 2017-08-13 09:28 erygreat 阅读(825) 评论(0) 推荐(0) 编辑

hadoop2.x之HDFS

摘要: 1.HDFS简介 HDFS(有时也成为DFS)是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上 例如:现在有一个200GB的文件,我们有5台电脑,每台存储为100GB,所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区(就是切割成好几块)然后将它分别存储在各个主机上(每个 阅读全文

posted @ 2017-08-13 09:26 erygreat 阅读(346) 评论(0) 推荐(0) 编辑

2017年7月26日

hadoop2.x入门:在windows上用Eclipse编写程序

摘要: 虽然有许多人推崇vim编程,但是本人并不习惯vim编程,本人还是比较在window下使用eclipse编程。另外由于本人linux安装的都是最小化安装,没有图形界面,因此使用windows的eclipse编写mapreduce程序远程发送至linux的hadoop下运行。 默认已经在linux上装好 阅读全文

posted @ 2017-07-26 13:45 erygreat 阅读(2006) 评论(0) 推荐(0) 编辑

2017年7月23日

hadoop2.x入门:编写mapreduce对气象数据集求每日最高气温和最低气温

摘要: 1.下载气象数据集 气象数据集下载地址为: ftp://ftp.ncdc.noaa.gov/pub/data/noaa 我们下载国内的气象数据,使用下面命令进行下载 国内气象站ID区间为 详细的可以在《 "1951—2007年中国地面气候资料日值数据集台站信息" 》中查看,不过应该不全。另外《 "S 阅读全文

posted @ 2017-07-23 19:30 erygreat 阅读(3844) 评论(2) 推荐(1) 编辑

hadoop2.x入门:Hadoop的启动方式

摘要: 本内容基于hadoop 2.7.2 1. hadoop启动方式 我们执行hadoop安装目录下的sbin/xxx xxx.sh 初始学习阶段可以使用start all.sh启动全部。 2. 通过web了解Hadoop的运行活动 注意:是hadoop2.x,因为hadoop2.x和hadoop1.x配 阅读全文

posted @ 2017-07-23 11:52 erygreat 阅读(2396) 评论(0) 推荐(0) 编辑

hadoop 2.x安装:安装结果测试

摘要: 注意:本方法只适用于hadoop2.x 在我们安装之后即使使用jps获取了当前的进程,也未必安装成功,我们实际测试一下。注意关闭防火墙并启动hadoop集群。这里给出简单的测试: 测试成功 阅读全文

posted @ 2017-07-23 11:20 erygreat 阅读(247) 评论(1) 推荐(0) 编辑

导航