Suckseedeva - 博客园

公告

2017年9月19日

摘要： NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文

posted @ 2017-09-19 15:34 Suckseedeva 阅读(10312) 评论(3) 推荐(0)

购买类目的概率预测

摘要：阅读全文

posted @ 2017-09-19 15:30 Suckseedeva 阅读(417) 评论(0) 推荐(0)

oozie 工作流调试及报错

摘要： 1. oozie 调用sql文件的workflow 错误汇总： 1）hive2server密码错误。（有时设置可以无密码，有时需要登陆密码，有时是单独的hive2server密码） Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文

posted @ 2017-09-19 14:57 Suckseedeva 阅读(3257) 评论(0) 推荐(0)

hadoop/hdfs/yarn 详细命令搬运

摘要：转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后，在hadoop的bin目录下有一系列命令：知道这些命令有助于理解hadoop的概念，命令如下： 1. hadoop 命令帮助 1.1 hadoop fs命令帮助阅读全文

posted @ 2017-09-19 14:08 Suckseedeva 阅读(1470) 评论(0) 推荐(0)

2017年9月11日

Impala SQL 使用小记

摘要： 1. impala端创建的表，DROP。 hive会自动同步到。但是通过hive DROP时，数据还会在，只是表的元数据没有了。所以完全DROP表，需要impala端的DROP 2. impala 不支持多个count(distinct ) 和udf 3. 在后台服务器连接impala-she 阅读全文

posted @ 2017-09-11 18:26 Suckseedeva 阅读(1898) 评论(0) 推荐(0)

2017年9月7日

hive压缩

摘要： 1. 常用 rcfile + gzip parquet + snappy 2. 压缩比，参考如果是数据源的话，采用 RCFile+bz 或 RCFile+gz 的方式，这样可以很大程度上节省磁盘空间；而在计算的过程中，为了不影响执行的速度，可以浪费一点磁盘空间，建议采用 RCFile+snapp 阅读全文

posted @ 2017-09-07 13:59 Suckseedeva 阅读(557) 评论(0) 推荐(0)

2017年9月6日

MySQL把文件导入表中

摘要： 1. Mysql 把本地文件导入表中默认txt为中文编码，在导入时转化为utf-8编码，就会避免乱码。阅读全文

posted @ 2017-09-06 16:13 Suckseedeva 阅读(661) 评论(0) 推荐(0)

2017年8月16日

numpy+pandas 基础学习

摘要： #-*- coding:utf-8 -*- import numpy as np; data1=[1,2,3,4,5] array1=np.array(data1) #创建数组/矩阵 # 使用numpy中的array函数 data2=[[1,3,4],[2,5,6]] array2=np.array(data2) #查看变量的数据类型：dtype array2.dtype #转换数据格式... 阅读全文

posted @ 2017-08-16 12:59 Suckseedeva 阅读(589) 评论(0) 推荐(0)

基本的描述性统计

摘要： 1. 最小值，1/4位数，中位数，3/4位数，最大值 excel里面： MIN，QUARTILE，MAX，AVARAGE 2. 众数 excel里面： MODE.MULT 阅读全文

posted @ 2017-08-16 12:55 Suckseedeva 阅读(283) 评论(0) 推荐(0)

2017年7月19日

Hive 优化汇总

摘要：参考： http://www.cnblogs.com/yshb/p/3147710.html http://www.cnblogs.com/sandbank/p/6408762.html 一 join时注意点： 1. 小表放前面 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来，然后扫描最阅读全文

posted @ 2017-07-19 09:56 Suckseedeva 阅读(1522) 评论(0) 推荐(0)

见贤思小齐，知足常乐呵

公告