Fork me on GitHub
摘要: 一、前述 Python3在公司用的还是比较多的,但一般Centoos默认是python2的环境。所以本文就python3的安装做个总结。 二、具体 1、查看python版本python 命令即可 2、安装Python 的依赖包 yum install zlib-devel bzip2-devel o 阅读全文
posted @ 2018-03-07 21:05 L先生AI课堂 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark中Shuffle文件的寻址是一个文件底层的管理机制,所以还是有必要了解一下的。 二、架构图 三、基本概念: 1) MapOutputTracker MapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。 MapOutputTracke 阅读全文
posted @ 2018-03-07 19:55 L先生AI课堂 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 一、前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二、UDF函数 UDF:用户自定义函数,user defined function * 根据UDF函数参数的个数来决定是实现哪一个UDF UDF1,UDF2。。。。UDF1xxx * 阅读全文
posted @ 2018-03-07 19:32 L先生AI课堂 阅读(5226) 评论(0) 推荐(0) 编辑
摘要: 一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、 阅读全文
posted @ 2018-03-07 19:07 L先生AI课堂 阅读(49055) 评论(1) 推荐(5) 编辑
摘要: 一、前述 SparkStreaming中的算子分为两类,一类是Transformation类算子,一类是OutPutOperator类算子。 Transformation类算子updateStateByKey,reduceByKeyAndWindow,transform OutPutOperator 阅读全文
posted @ 2018-03-07 12:04 L先生AI课堂 阅读(418) 评论(0) 推荐(0) 编辑