大数据 - 随笔分类 - 0xcafedaddy

Hive中日期函数总结

摘要：Hive中日期函数总结: 1.时间戳函数日期转时间戳：从1970 01 01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); 获得当前时区的UNIX时间戳 select unix_timestamp('2017 09 15 14:23:00'); sel 阅读全文

posted @ 2018-07-24 15:52 0xcafedaddy 阅读(5773) 评论(0) 推荐(0)

Hadoop Trash回收站使用指南

摘要：转载：https://blog.csdn.net/sunnyyoona/article/details/78869778 我们在删除一个文件时，遇到如下问题，提示我们不能删除文件放回回收站: sudo -uxiaosi hadoop fs -rm -r tmp/data_group/test/emp 阅读全文

posted @ 2018-06-25 10:48 0xcafedaddy 阅读(2762) 评论(0) 推荐(0)

mapreduce的中间结果存储在哪里？

只有注册用户登录后才能阅读该文。

posted @ 2018-06-11 14:50 0xcafedaddy 阅读(9) 评论(0) 推荐(0)

HDFS 中向 DataNode 写入数据失败了怎么办

摘要：https://blog.csdn.net/HeatDeath/article/details/79012258 http://wenda.chinahadoop.cn/question/3323 https://www.cnblogs.com/fssqblogsit/p/6938999.html 阅读全文

posted @ 2018-06-08 13:31 0xcafedaddy 阅读(973) 评论(0) 推荐(0)

mapreduce 实现写出orc文件

摘要：mapreduce 实现写出orc文件阅读全文

posted @ 2018-06-06 20:08 0xcafedaddy 阅读(882) 评论(1) 推荐(0)

mapreduce读取压缩文件

摘要：mapreduce读取压缩文件阅读全文

posted @ 2018-06-06 20:08 0xcafedaddy 阅读(723) 评论(0) 推荐(0)

自定义Writable

只有注册用户登录后才能阅读该文。

posted @ 2018-06-05 02:09 0xcafedaddy 阅读(0) 评论(0) 推荐(0)

HDFS关闭安全模式

只有注册用户登录后才能阅读该文。

posted @ 2018-06-04 11:08 0xcafedaddy 阅读(6) 评论(0) 推荐(0)

如何将PySpark导入Python

只有注册用户登录后才能阅读该文。

posted @ 2018-06-02 22:54 0xcafedaddy

hive开窗函数over(partition by ......)用法

摘要：一、over(partition by ......)主要和聚合函数sum()、count()、avg()等结合使用，实现分组聚合的功能示列:根据day_id日期和mac_id机器码进行聚合分组求每一天的该机器的销量和即sum_num，hive sql语句:select day_id,mac_id 阅读全文

posted @ 2018-05-28 22:24 0xcafedaddy 阅读(8362) 评论(0) 推荐(0)

Hive设置参数的三种方法

摘要：Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一：在Hive中，所有的默认配置都在${HIVE_HOME}/conf/h 阅读全文

posted @ 2018-05-25 10:57 0xcafedaddy 阅读(1530) 评论(0) 推荐(0)

HDFS删除并清空回收站

摘要：删除文件并放入回收站： hdfs dfs -rm -f /path 删除文件不放入回收站： hdfs dfs -rm -f -skipTrash /path 清空回收站： hdfs dfs -expunge (执行完之后会打一个checkpoint，并不会立即执行，稍后会执行清空回收站操作) 阅读全文

posted @ 2018-05-17 11:48 0xcafedaddy 阅读(7811) 评论(0) 推荐(0)

ambari journalnode异常Can't scan a pre-transactional edit log

摘要：今天在删日志文件，不知道删错哪个地方了。该目录下一直报错，这个日志文件增长很快， /var/log/hadoop/hdfs/ hadoop-hdfs-journalnode-xx.log 先备份/hadoop/hdfs/journal/这个目录方式一：然后删除除version之外的文件，重启之阅读全文

posted @ 2018-04-27 15:55 0xcafedaddy 阅读(1161) 评论(0) 推荐(0)

yarn Fairscheduler与Capacityscheduler

摘要：Capacityscheduler Capacityscheduler允许多个组织共享整个集群，每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外，队列内部又可以垂直划分，这样阅读全文

posted @ 2018-03-29 13:19 0xcafedaddy 阅读(1560) 评论(0) 推荐(0)

mapreduce on yarn简单内存分配解释

摘要：https://www.cnblogs.com/yesecangqiong/p/6274427.html 关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在阅读全文

posted @ 2018-03-19 23:02 0xcafedaddy 阅读(220) 评论(0) 推荐(0)

tez参数

摘要：https://tez.apache.org/releases/0.8.4/tez-api-javadocs/configs/TezConfiguration.html 阅读全文

posted @ 2018-03-12 19:03 0xcafedaddy 阅读(541) 评论(0) 推荐(0)

利用yarn多队列实现hadoop资源隔离

摘要：大数据处理离不开hadoop集群的部署和管理，对于本来硬件资源就不多的创业团队来说，做好资源的共享和隔离是很有必要的，毕竟不像BAT那么豪，那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢，我们来研究一下yarn多队列做资源隔离请尊重原创，转载请注明来源网站www.shareditor 阅读全文

posted @ 2018-03-07 15:45 0xcafedaddy 阅读(3429) 评论(0) 推荐(1)

Hadoop YARN中内存的设置

摘要：在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务（这就是所谓的“资源调度”）阅读全文

posted @ 2018-03-06 15:19 0xcafedaddy 阅读(2653) 评论(0) 推荐(0)

hive 行转列，列转行

摘要：行转列： concat_ws 列转行： explode 阅读全文

posted @ 2018-03-03 23:46 0xcafedaddy 阅读(231) 评论(0) 推荐(0)

jsonpath

摘要：http://blog.csdn.net/koflance/article/details/63262484 阅读全文

posted @ 2018-03-02 19:07 0xcafedaddy 阅读(112) 评论(0) 推荐(0)

0xcafedaddy

随笔分类 - 大数据

公告