摘要: 一、 /proc 目录 Linux系统上的/proc目录是一种文件系统,即proc文件系统,与其它常见的文件系统不同的是,/proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间。它以文件系统的方式为内核与进程提供通信的接口。用户和应用程序可以通过/proc得到系统的信息,并可以改变内 阅读全文
posted @ 2018-05-27 00:33 大师兄啊哈 阅读(6785) 评论(0) 推荐(1) 编辑
摘要: 一、现象 map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节 阅读全文
posted @ 2018-05-26 15:10 大师兄啊哈 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 前言 17年底,买了清华大学出版社出版的《Hadoop权威指南》(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片。从那个时候其就对出版社综合实力很感兴趣,想通过具体数据分析各个出版社的出版质量,另外借此也可以熟悉大数据生态和相关操作。 豆瓣上的书籍数据刚好可以满足需求, 阅读全文
posted @ 2018-05-20 16:09 大师兄啊哈 阅读(8073) 评论(0) 推荐(1) 编辑
摘要: 前言这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。环境:系统:Centos 6.5Hadoop:Apache,2.7.3Mysql:5.1.73JDK:1.8Sqoop:1.4.7Hadoop以伪分布式模式运行。一、使用的导入命令我主要是参考一篇文章去测试的,Sqoop: Import Data From MySQL to Hive。参照里面的方法,在mysql建了表,... 阅读全文
posted @ 2018-05-18 17:19 大师兄啊哈 阅读(15258) 评论(0) 推荐(0) 编辑
摘要: 一、sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数 阅读全文
posted @ 2018-05-18 16:40 大师兄啊哈 阅读(1807) 评论(0) 推荐(0) 编辑
摘要: 前言 最近用爬虫爬豆瓣上的资料,无奈总是被封,agent伪装和cookie修改这些都用过了,可惜都起不了什么作用,到了一定次数,还是会返回403。想用代理ip,无奈免费的太不稳定,买收费的又有点没必要。今天在查资料的时候,读到一篇谈ADSL拨号代理的文章,刚好我又是用这种方式上网,于是想到了一个对付 阅读全文
posted @ 2018-05-17 00:26 大师兄啊哈 阅读(10630) 评论(0) 推荐(1) 编辑
摘要: 前言 最近想爬点东西,2.7比较稳定,但是因为在linux机器上用yum安装的默认是2.6.6版本的,所以需要升级到2.7。 一、安装过程 1. 先安装相应的依赖 如果没安装好这些依赖的,后面还要重新走编译流程,别问我为什么知道 。 2. 下载软件包 3. 解压安装包 4. 安装 在检测脚本中加上e 阅读全文
posted @ 2018-05-11 14:07 大师兄啊哈 阅读(11620) 评论(7) 推荐(2) 编辑
摘要: 一、描述 在书中第二章,有一个例子,构建完之后,运行: 如果用的spark版本与书中用到的不一样的话,就会出现各种问题,譬如书中用的是1.2.0而我用的是最新的2.3.0。 二、问题及解决 1. 第一次编译的时候,出现类似下面的报错: 首先是解决版本依赖的问题: (1)获得spark-core的版本 阅读全文
posted @ 2018-05-04 17:37 大师兄啊哈 阅读(1060) 评论(0) 推荐(1) 编辑
摘要: 原文链接:https://www.cnblogs.com/harrymore/p/8985058.html 一、问题描述 早上在学习《Spark快速大数据分析》的时候,需要下载书本的实例代码,于是用git clone一下给出的库: https://github.com/databricks/lear 阅读全文
posted @ 2018-05-03 14:07 大师兄啊哈 阅读(50160) 评论(0) 推荐(0) 编辑
摘要: 一、文件系统 1. 概念 所谓文件系统,是操作系统用于明确磁盘或分区上的文件的方法和数据结构;即在磁盘上组织文件的方法。也指用于存储文件的磁盘或分区,或文件系统种类。 2. Local File System 这里的本地文件系统指的是操作系统层面的文件系统,譬如Linux支持的文件系统,ext3,e 阅读全文
posted @ 2018-04-28 17:05 大师兄啊哈 阅读(1124) 评论(0) 推荐(1) 编辑