2018 年 9月 13 日随笔档案 - 王马扎

2018年9月13日

摘要： MapReduce MapReduce原理非常重要，hive与spark都是基于MR原理 MapReduce采用多进程，方便对每个任务资源控制和调配，但是进程消耗更多的启动时间，因此MR时效性不高。适合批量，高吞吐的数据处理。Spark采用的是多线程模型。 MapReduce执行流程 Map过程 m 阅读全文

posted @ 2018-09-13 23:50 王马扎阅读(287) 评论(0) 推荐(0) 编辑

[爬虫]用python的requests模块爬取糗事百科段子

摘要：虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连阅读全文

posted @ 2018-09-13 15:55 王马扎阅读(556) 评论(0) 推荐(0) 编辑

[Hadoop]Hive-1.2.x安装配置+Mysql安装

摘要： HIve的元数据存储在mysql中，需要配置与MySQL建立连接，除了安装MySQL外还要安装连接的jar包：mysql-connector-java-5.1.47.tar.gz 安装环境：Centos7.5+Hadoop2.6.1集群 Hive源码包下载 http://mirror.bit.edu 阅读全文

posted @ 2018-09-13 13:52 王马扎阅读(789) 评论(0) 推荐(0) 编辑

公告