摘要:
阅读全文
摘要:
1. oozie 调用sql文件的workflow 错误汇总: 1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码) Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文
摘要:
1. oozie 调用sql文件的workflow 错误汇总: 1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码) Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文
摘要:
转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后,在hadoop的bin目录下有一系列命令: 知道这些命令有助于理解hadoop的概念,命令如下: 1. hadoop 命令帮助 1.1 hadoop fs命令帮助 阅读全文
摘要:
1. impala端创建的表,DROP。 hive会自动同步到。 但是通过hive DROP时,数据还会在,只是表的元数据没有了。 所以完全DROP表,需要impala端的DROP 2. impala 不支持 多个count(distinct ) 和udf 3. 在后台服务器连接impala-she 阅读全文
摘要:
1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp 阅读全文
摘要:
1. Mysql 把本地文件导入表中 默认txt为中文编码,在导入时转化为utf-8编码,就会避免乱码。 阅读全文
摘要:
#-*- coding:utf-8 -*- import numpy as np; data1=[1,2,3,4,5] array1=np.array(data1) #创建数组/矩阵 # 使用numpy中的array函数 data2=[[1,3,4],[2,5,6]] array2=np.array(data2) #查看变量的数据类型:dtype array2.dtype #转换数据格式... 阅读全文
摘要:
1. 最小值,1/4位数,中位数,3/4位数,最大值 excel里面: MIN,QUARTILE,MAX,AVARAGE 2. 众数 excel里面: MODE.MULT 阅读全文
摘要:
参考: http://www.cnblogs.com/yshb/p/3147710.html http://www.cnblogs.com/sandbank/p/6408762.html 一 join时注意点: 1. 小表放前面 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最 阅读全文
摘要:
1. SQLyog & Navicat SQLyog可以管理 MySQL Navicat 可以管理 SQL Server,MySQL,PostgreSQL,SQLite 2. 日期及加减 3. 阅读全文
|