2019年11月27日

Hadoop权威指南 系列学习-关于HDFS

摘要: HDFS的设计 Hadoop自带一个称为HDFS的分布式文件系统,即Hadoop Distributed FileSystem。在非正式文档或旧文档以及配置中心中,有时也简称为DFS 数据块 每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位。构建与单个磁盘之上的文件系统通过磁盘块来管理 阅读全文

posted @ 2019-11-27 09:43 帝落少年 阅读(125) 评论(0) 推荐(0) 编辑

2019年11月23日

Hadoop权威指南 系列学习-关于MapReduce

摘要: 1.数据流 MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务(task)来执行,其中包括两类任务:map任务和reduce任务。这些任务运行在集群的节点上,并通过YARN进行调度。如果一个任务失败,它将 阅读全文

posted @ 2019-11-23 21:36 帝落少年 阅读(218) 评论(0) 推荐(0) 编辑

2019年3月4日

hive中统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数

摘要: 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等,那今天就来聊聊这些需求在hive中的实现方法 先创建测试表 1再插入模拟数据 注意:每个用户每天可能会有多条记录 所以我们先按用户和日期分组求和,使每个用户每天只有一条数据 根据用户 阅读全文

posted @ 2019-03-04 10:22 帝落少年 阅读(2601) 评论(0) 推荐(0) 编辑

2018年8月15日

Day19 ES内存那点事

摘要: 【携程旅行网 吴晓刚】 注: 本文主要针对ES 2.x。 “该给ES分配多少内存?” “JVM参数如何优化?““为何我的Heap占用这么高?”“为何经常有某个field的数据量超出内存限制的异常?““为何感觉上没多少数据,也会经常Out Of Memory?”以上问题,显然没有一个统一的数学公式能够 阅读全文

posted @ 2018-08-15 18:45 帝落少年 阅读(118) 评论(0) 推荐(0) 编辑

2017年3月29日

2017年目标

摘要: 1、熟读Lucene源码 2、熟读ES源码 3、自己开发一个分词系统 阅读全文

posted @ 2017-03-29 08:01 帝落少年 阅读(73) 评论(0) 推荐(0) 编辑

2015年3月8日

centOS上安装redis

摘要: 1.安装tcl支持yum install tcl 2.安装redis我们以最新的2.8.9为例$ wget http://download.redis.io/releases/redis-2.8.9.tar.gz$ tar xzf redis-2.8.9.tar.gz$ cd redis-2.8.... 阅读全文

posted @ 2015-03-08 20:04 帝落少年 阅读(312) 评论(0) 推荐(0) 编辑

redis2.6.4 在centos6.4上的安装

摘要: 今天装了个centos2.6.4 然后装jdk,完了redis2.6.4装redis2.6.4折腾了老半天,缺了很多东西,连gcc都没有无语中……废话不多说,直接上过程1、报错一 没用gcc安装过程 yum install cpp yum install binutils yum install g... 阅读全文

posted @ 2015-03-08 19:59 帝落少年 阅读(241) 评论(0) 推荐(0) 编辑

导航