见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  187 随笔 :: 0 文章 :: 9 评论 :: 51万 阅读

09 2017 档案

摘要:NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文
posted @ 2017-09-19 15:34 Suckseedeva 阅读(10012) 评论(3) 推荐(0) 编辑

摘要: 阅读全文
posted @ 2017-09-19 15:30 Suckseedeva 阅读(401) 评论(0) 推荐(0) 编辑

摘要:1. oozie 调用sql文件的workflow 错误汇总: 1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码) Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文
posted @ 2017-09-19 14:57 Suckseedeva 阅读(3203) 评论(0) 推荐(0) 编辑

摘要:转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后,在hadoop的bin目录下有一系列命令: 知道这些命令有助于理解hadoop的概念,命令如下: 1. hadoop 命令帮助 1.1 hadoop fs命令帮助 阅读全文
posted @ 2017-09-19 14:08 Suckseedeva 阅读(1448) 评论(0) 推荐(0) 编辑

摘要:1. impala端创建的表,DROP。 hive会自动同步到。 但是通过hive DROP时,数据还会在,只是表的元数据没有了。 所以完全DROP表,需要impala端的DROP 2. impala 不支持 多个count(distinct ) 和udf 3. 在后台服务器连接impala-she 阅读全文
posted @ 2017-09-11 18:26 Suckseedeva 阅读(1878) 评论(0) 推荐(0) 编辑

摘要:1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp 阅读全文
posted @ 2017-09-07 13:59 Suckseedeva 阅读(534) 评论(0) 推荐(0) 编辑

摘要:1. Mysql 把本地文件导入表中 默认txt为中文编码,在导入时转化为utf-8编码,就会避免乱码。 阅读全文
posted @ 2017-09-06 16:13 Suckseedeva 阅读(652) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示