2018 年 9月随笔档案 - 王马扎

[Hive]Hive架构及常规操作

摘要：Hive架构如图中所示，Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。 1）用户接口：Client CLI（hiv 阅读全文

posted @ 2018-09-25 10:36 王马扎阅读(311) 评论(0) 推荐(0) 编辑

[Hadoop]浅谈MapReduce原理及执行流程

摘要：MapReduce MapReduce原理非常重要，hive与spark都是基于MR原理 MapReduce采用多进程，方便对每个任务资源控制和调配，但是进程消耗更多的启动时间，因此MR时效性不高。适合批量，高吞吐的数据处理。Spark采用的是多线程模型。 MapReduce执行流程 Map过程 m 阅读全文

posted @ 2018-09-13 23:50 王马扎阅读(307) 评论(0) 推荐(0) 编辑

[爬虫]用python的requests模块爬取糗事百科段子

摘要：虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连阅读全文

posted @ 2018-09-13 15:55 王马扎阅读(557) 评论(0) 推荐(0) 编辑

[Hadoop]Hive-1.2.x安装配置+Mysql安装

摘要：HIve的元数据存储在mysql中，需要配置与MySQL建立连接，除了安装MySQL外还要安装连接的jar包：mysql-connector-java-5.1.47.tar.gz 安装环境：Centos7.5+Hadoop2.6.1集群 Hive源码包下载 http://mirror.bit.edu 阅读全文

posted @ 2018-09-13 13:52 王马扎阅读(797) 评论(0) 推荐(0) 编辑

09 2018 档案

公告