摘要:
一.背景 最近发现一个大坑,一个分区事实表(天分区)关联一个时间表用于对时间范围内的分区数据进行统计,结果速度超慢,通过explain分析需要在where条件后面加上对分区的大致筛选范围才会有速度提升,看来Tez引擎并没有按照我们想象的那样根据join的表来筛选数据范围。 二.分析 1.查看没有wh 阅读全文
摘要:
今天重温一下快速排序,快速排序主要是通过从右向左和从左向右扫描,当左边的扫描标记到比基准值大的停下,右边的扫描标记标记到比基准值小的停下,然后交换左右标记处的值,每一轮当左右扫描标记相遇则本轮结束,每一轮扫描主要是把基准值放到正确的位置上,把比基准值小的放到基准值的左边,比基准值大的放到右边。 直接 阅读全文
摘要:
win10系统安装xgboost确实坑多,最初直接安装python3.7和pycharm的方式一直未成功,后面想着使用anaconda来进行相关python包管理。 踩坑步骤如下: 1.使用anaconda prompt进行进行xgboost安装。 图1 2.执行命令pip install xgbo 阅读全文
摘要:
由于集群Hive默认使用的存储格式为text,为了节省硬盘资源,因此需要对之前的脚本进行改造,最快捷的方式就是在脚本最前面加set hive.default.fileformat=orc,经过测试这个命令确实生效了,很多脚本也运行成功,但是有的脚本在计算的中间过程中会报错,这次针对报错的脚本来解析一 阅读全文
摘要:
一直说安装k8s试用一下,一直没有成功,要么是安装一半报错,没有时间去找问题。 1.关闭selinux setenforce 0 && sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config 2.关闭防火墙 system 阅读全文
摘要:
经常听到有开发人员抱怨开启了向量化,查询速度怎么还这么慢,其实Hive开启向量化并不是万能的,它需要同时满足以下两个条件才能发挥出效果。 1.表的存储类型 表存储的格式需要是Orc或者Parquet,简单的说就是列存储。 2.向量化支持的函数 以下是官网的关于支持向量化的函数,不在这里面的函数是不支 阅读全文
摘要:
好久没使用neo4j,有点忘记了,本文特此记录一下,方便以后快速捡起来。neo4j其实就是一个图数据库,可以清晰明了的表达我们各个节点或者对象之间的关系。首先直接登录网站进行下载安装,官网地址:https://neo4j.com/download-center/。安装好后的界面如下: 安装好后按照下 阅读全文
摘要:
数据开发很多时候由于文档缺失等原因导致不记得一个表哪个字段或者某几个字段构成的主键,不清楚主键很麻烦,我们就不清楚怎么去和其他的表进行关联,或者有些公司各种不规范,需求过来连产品自己都不清楚的情况,那么这个时候就只有开发自己去梳理了(苦逼的数据开发),本文主要是写了一个小工具用于根据数据检测出主键。 阅读全文
摘要:
今天又来练习一个sql,如何把多个条数据按照时间交集合并为一条,没有想到好的方法,稍微有点复杂,大致思路就是自关联表数据,由于如果有交集的数据关联后会出现多次,把这种出现多次的数据合并为一个集合,再从集合里面选出最大和最小日期,然后另一部分数据没有交集,只出现过一次,最后把两部分数据合并到一起就可以 阅读全文
摘要:
最近一位大哥问了一个问题,Hive进行数据清洗时,如果计算累加,并且把缺失的日期带上,最初想的是构造一个中间时间表,然后进行关联,发现特别麻烦,后面想到的大致思路就是使用sum over+视图解决这个问题。 简单说就是想把图一的数据统计出图二的数据。 图一 图二 具体SQL关注公众号《码农独白》查阅 阅读全文