摘要: 1、join关键字的原理和机制¶ Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。 1.1 Hive Common Join¶ 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会默认把执行Comm 阅读全文
posted @ 2020-01-02 19:01 雨中漫步人生 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 1. 报错详情¶ 现象:graph.view()展示的图形显示中文为乱码。 In [40]: from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import tra 阅读全文
posted @ 2020-01-02 14:27 雨中漫步人生 阅读(2157) 评论(0) 推荐(0) 编辑
摘要: 1、数据倾斜概述¶ 1.1 什么是数据倾斜?¶ 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要现象是任务进度长时间维持在99%的附近。 1.2 数据倾斜情况¶ 查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的reduce差异过大。单一reduce 阅读全文
posted @ 2020-01-01 16:24 雨中漫步人生 阅读(2336) 评论(0) 推荐(1) 编辑
摘要: 1、MapReduce简介¶ 定义:MapReduce是一个用于处理海量数据的分布式计算框架。 特点:数据分布式存储(HDFS)、作业调度(任务分配、进出规则)、容错(故障处理)、机器间通信(服务器通信协调)等。 举个简单的例子:比如说有一堆钞票,面值大小为10 50 100,103个人来统计各种面 阅读全文
posted @ 2019-12-31 18:03 雨中漫步人生 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区。 1、分区参数介绍¶ hive.exec.dynamic.par 阅读全文
posted @ 2019-12-31 16:31 雨中漫步人生 阅读(17580) 评论(0) 推荐(0) 编辑
摘要: 定时器功能:设置任务定时运行。如循环运行某项程序、定期备份数据等。 1、查看自启动状态 查看Crond的开启自启动服务是否开启(systemctl is-enabled crond.service) 另一种方式查看systemctl list-unit-files | grep enable 启动命 阅读全文
posted @ 2019-12-24 22:02 雨中漫步人生 阅读(1204) 评论(0) 推荐(1) 编辑