09 2018 档案

摘要:Hive架构 如图中所示,Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。 1)用户接口:Client CLI(hiv 阅读全文
posted @ 2018-09-25 10:36 王马扎 阅读(311) 评论(0) 推荐(0) 编辑
摘要:MapReduce MapReduce原理非常重要,hive与spark都是基于MR原理 MapReduce采用多进程,方便对每个任务资源控制和调配,但是进程消耗更多的启动时间,因此MR时效性不高。适合批量,高吞吐的数据处理。Spark采用的是多线程模型。 MapReduce执行流程 Map过程 m 阅读全文
posted @ 2018-09-13 23:50 王马扎 阅读(307) 评论(0) 推荐(0) 编辑
摘要:虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连 阅读全文
posted @ 2018-09-13 15:55 王马扎 阅读(557) 评论(0) 推荐(0) 编辑
摘要:HIve的元数据存储在mysql中,需要配置与MySQL建立连接,除了安装MySQL外还要安装连接的jar包:mysql-connector-java-5.1.47.tar.gz 安装环境:Centos7.5+Hadoop2.6.1集群 Hive源码包下载 http://mirror.bit.edu 阅读全文
posted @ 2018-09-13 13:52 王马扎 阅读(797) 评论(0) 推荐(0) 编辑