摘要: MapReduce MapReduce原理非常重要,hive与spark都是基于MR原理 MapReduce采用多进程,方便对每个任务资源控制和调配,但是进程消耗更多的启动时间,因此MR时效性不高。适合批量,高吞吐的数据处理。Spark采用的是多线程模型。 MapReduce执行流程 Map过程 m 阅读全文
posted @ 2018-09-13 23:50 王马扎 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连 阅读全文
posted @ 2018-09-13 15:55 王马扎 阅读(556) 评论(0) 推荐(0) 编辑
摘要: HIve的元数据存储在mysql中,需要配置与MySQL建立连接,除了安装MySQL外还要安装连接的jar包:mysql-connector-java-5.1.47.tar.gz 安装环境:Centos7.5+Hadoop2.6.1集群 Hive源码包下载 http://mirror.bit.edu 阅读全文
posted @ 2018-09-13 13:52 王马扎 阅读(789) 评论(0) 推荐(0) 编辑