随笔分类 -  大数据

摘要:Hive中日期函数总结: 1.时间戳函数 日期转时间戳:从1970 01 01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); 获得当前时区的UNIX时间戳 select unix_timestamp('2017 09 15 14:23:00'); sel 阅读全文
posted @ 2018-07-24 15:52 0xcafedaddy 阅读(5748) 评论(0) 推荐(0) 编辑
摘要:转载:https://blog.csdn.net/sunnyyoona/article/details/78869778 我们在删除一个文件时,遇到如下问题,提示我们不能删除文件放回回收站: sudo -uxiaosi hadoop fs -rm -r tmp/data_group/test/emp 阅读全文
posted @ 2018-06-25 10:48 0xcafedaddy 阅读(2688) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2018-06-11 14:50 0xcafedaddy 阅读(9) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/HeatDeath/article/details/79012258 http://wenda.chinahadoop.cn/question/3323 https://www.cnblogs.com/fssqblogsit/p/6938999.html 阅读全文
posted @ 2018-06-08 13:31 0xcafedaddy 阅读(959) 评论(0) 推荐(0) 编辑
摘要:mapreduce 实现写出orc文件 阅读全文
posted @ 2018-06-06 20:08 0xcafedaddy 阅读(865) 评论(1) 推荐(0) 编辑
摘要:mapreduce读取压缩文件 阅读全文
posted @ 2018-06-06 20:08 0xcafedaddy 阅读(702) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2018-06-05 02:09 0xcafedaddy 阅读(0) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2018-06-04 11:08 0xcafedaddy 阅读(6) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2018-06-02 22:54 0xcafedaddy 编辑
摘要:一、over(partition by ......)主要和聚合函数sum()、count()、avg()等结合使用,实现分组聚合的功能 示列:根据day_id日期和mac_id机器码进行聚合分组求每一天的该机器的销量和即sum_num,hive sql语句:select day_id,mac_id 阅读全文
posted @ 2018-05-28 22:24 0xcafedaddy 阅读(8263) 评论(0) 推荐(0) 编辑
摘要:Hive提供三种可以改变环境变量的方法,分别是:(1)、修改HIVEHOME/conf/hivesite.xml23cliHive{HIVE_HOME}/conf/h 阅读全文
posted @ 2018-05-25 10:57 0xcafedaddy 阅读(1464) 评论(0) 推荐(0) 编辑
摘要:删除文件并放入回收站: hdfs dfs -rm -f /path 删除文件不放入回收站: hdfs dfs -rm -f -skipTrash /path 清空回收站: hdfs dfs -expunge (执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作) 阅读全文
posted @ 2018-05-17 11:48 0xcafedaddy 阅读(7737) 评论(0) 推荐(0) 编辑
摘要:今天在删日志文件,不知道删错哪个地方了。 该目录下一直报错,这个日志文件增长很快, /var/log/hadoop/hdfs/ hadoop-hdfs-journalnode-xx.log 先备份/hadoop/hdfs/journal/这个目录 方式一: 然后删除除version之外的文件,重启之 阅读全文
posted @ 2018-04-27 15:55 0xcafedaddy 阅读(1135) 评论(0) 推荐(0) 编辑
摘要:Capacityscheduler Capacityscheduler允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外,队列内部又可以垂直划分,这样 阅读全文
posted @ 2018-03-29 13:19 0xcafedaddy 阅读(1531) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/yesecangqiong/p/6274427.html 关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情,单独查任何一个资料都不能很好的理解透彻。于是,最近查了大量的资料,综合各种解释,终于理解到了一个比较清晰的程度,在 阅读全文
posted @ 2018-03-19 23:02 0xcafedaddy 阅读(203) 评论(0) 推荐(0) 编辑
摘要:https://tez.apache.org/releases/0.8.4/tez-api-javadocs/configs/TezConfiguration.html 阅读全文
posted @ 2018-03-12 19:03 0xcafedaddy 阅读(519) 评论(0) 推荐(0) 编辑
摘要:大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离 请尊重原创,转载请注明来源网站www.shareditor 阅读全文
posted @ 2018-03-07 15:45 0xcafedaddy 阅读(3383) 评论(0) 推荐(1) 编辑
摘要:在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”) 阅读全文
posted @ 2018-03-06 15:19 0xcafedaddy 阅读(2596) 评论(0) 推荐(0) 编辑
摘要:行转列: concat_ws 列转行: explode 阅读全文
posted @ 2018-03-03 23:46 0xcafedaddy 阅读(220) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/koflance/article/details/63262484 阅读全文
posted @ 2018-03-02 19:07 0xcafedaddy 阅读(102) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示