是阿凯啊 - 博客园

2021年1月17日

摘要： python操作hdfs 下载hdfs pip install hdfs 代码示例 #!/usr/bin/env python # -*- coding:utf-8 -*- """ # Author Xu Junkai # coding=utf-8 # @Time : 2021/1/17 13:46 阅读全文

posted @ 2021-01-17 20:30 是阿凯啊阅读(849) 评论(0) 推荐(0)

2021年1月16日

hbase

摘要： hbase 1.介绍 base适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正是因为Hbase良好的扩展性(存储在HDFS)，才为海量数据的存储提供了便利。特点 1.海量存储：适合存储PB级别的海量数据 2 阅读全文

posted @ 2021-01-16 21:37 是阿凯啊阅读(540) 评论(0) 推荐(0)

2021年1月3日

ZooKeeper

摘要： ZooKeeper 1.简介 Zookeeper是一个分布式的，开源的分布式应用程序协调服务。是Hadoop和Hbase重要组件，它是一个为分布式应用提供一致性服务。提供功能包括：配置维护，域名服务，分布式同步，组服务等。 ZooKeeper是集群的管理者，监视着集群中各个节点的状态根据节点提交的反阅读全文

posted @ 2021-01-03 20:32 是阿凯啊阅读(185) 评论(0) 推荐(0)

2020年12月23日

hadoop_06

摘要： hadoop_06 1.map端进行join 用户数据：用户id 用户名，年龄，性别，朋友 u001,senge,18,male,angelababy u002,,58,male,ruhua ... 订单数据：订单,用户id order001,u002 order001,u003 order00 阅读全文

posted @ 2020-12-23 00:03 是阿凯啊阅读(51) 评论(0) 推荐(0)

hadoop_05

摘要： hadoop05 setup cleanup setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！ c 阅读全文

posted @ 2020-12-23 00:02 是阿凯啊阅读(69) 评论(0) 推荐(0)

2020年12月16日

分布式集群时间同步

摘要：分布式集群时间同步集群时间同步思路：找一台机器，做为时间服务器，所有的机器与这台集群时间进行定时同步，好比如每隔30分钟，同步一次。操作步骤思路： 1.检测ntp是否安装 2.修改ntp配置文件修改授权网段（授权192.168.1.0-192.168.1.255）网段上所有机器可以从这台机器上阅读全文

posted @ 2020-12-16 14:50 是阿凯啊阅读(480) 评论(0) 推荐(0)

crontab定时任务

摘要： .1.crontab定时任务调度 crontab[选项] -e 编辑crontab定时任务 -l 查询crontab任务 -r 删除当前用户所有定时任务项释义范围第一个 * 一小时当中第几分钟 0-59 第二个 * 一天当中第几个小时 0-23 第三个 * 一个月中的第几天 1-31 第四个阅读全文

posted @ 2020-12-16 11:29 是阿凯啊阅读(137) 评论(0) 推荐(0)

2020年11月29日

hadoop-04

摘要： hadoop-04 1.流量案例分析统计每个人总流量 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apac 阅读全文

posted @ 2020-11-29 23:16 是阿凯啊阅读(105) 评论(0) 推荐(0)

hadoop03

摘要： hadoop 03 1.checkpoint机制 hadoop如何进行checkpoint的呢？ hdfs的源数据记录在内存中，它是一个对象。当客户端进行hdfs操作(rm mkdir...)，然后传输给服务端namenode进行解析，执行更新操作，为了保证数据持久化，它会把数据进行序列化存储，当然阅读全文

posted @ 2020-11-29 11:41 是阿凯啊阅读(102) 评论(0) 推荐(0)

2020年11月28日

记录一次hadoop自己埋的坑

摘要：记录一次hadoop自己埋的坑本机使用windows系统运行hadoop的mapreduce.首先我现在的版本是hadoop2.8.5。配置操作 0.配置java环境变量 1.下载hadoop到磁盘上我下载到F:\hadoop-2.8.5 2.下载必要winutils.exe和hadoop.dl 阅读全文

posted @ 2020-11-28 23:21 是阿凯啊阅读(87) 评论(0) 推荐(0)

阿凯

公告