会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿凯
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
29
下一页
2021年1月17日
python操作hdfs
摘要: python操作hdfs 下载hdfs pip install hdfs 代码示例 #!/usr/bin/env python # -*- coding:utf-8 -*- """ # Author Xu Junkai # coding=utf-8 # @Time : 2021/1/17 13:46
阅读全文
posted @ 2021-01-17 20:30 是阿凯啊
阅读(849)
评论(0)
推荐(0)
2021年1月16日
hbase
摘要: hbase 1.介绍 base适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正是因为Hbase良好的扩展性(存储在HDFS),才为海量数据的存储提供了便利。 特点 1.海量存储:适合存储PB级别的海量数据 2
阅读全文
posted @ 2021-01-16 21:37 是阿凯啊
阅读(540)
评论(0)
推荐(0)
2021年1月3日
ZooKeeper
摘要: ZooKeeper 1.简介 Zookeeper是一个分布式的,开源的分布式应用程序协调服务。是Hadoop和Hbase重要组件,它是一个为分布式应用提供一致性服务。提供功能包括:配置维护,域名服务,分布式同步,组服务等。 ZooKeeper是集群的管理者,监视着集群中各个节点的状态根据节点提交的反
阅读全文
posted @ 2021-01-03 20:32 是阿凯啊
阅读(185)
评论(0)
推荐(0)
2020年12月23日
hadoop_06
摘要: hadoop_06 1.map端进行join 用户数据: 用户id 用户名,年龄,性别,朋友 u001,senge,18,male,angelababy u002,,58,male,ruhua ... 订单数据: 订单,用户id order001,u002 order001,u003 order00
阅读全文
posted @ 2020-12-23 00:03 是阿凯啊
阅读(51)
评论(0)
推荐(0)
hadoop_05
摘要: hadoop05 setup cleanup setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高! c
阅读全文
posted @ 2020-12-23 00:02 是阿凯啊
阅读(69)
评论(0)
推荐(0)
2020年12月16日
分布式集群时间同步
摘要: 分布式集群时间同步 集群时间同步思路:找一台机器,做为时间服务器,所有的机器与这台集群时间进行定时同步,好比如每隔30分钟,同步一次。 操作步骤思路: 1.检测ntp是否安装 2.修改ntp配置文件 修改授权网段(授权192.168.1.0-192.168.1.255)网段上所有机器可以从这台机器上
阅读全文
posted @ 2020-12-16 14:50 是阿凯啊
阅读(480)
评论(0)
推荐(0)
crontab定时任务
摘要: .1.crontab定时任务调度 crontab[选项] -e 编辑crontab定时任务 -l 查询crontab任务 -r 删除当前用户所有定时任务 项 释义 范围 第一个 * 一小时当中第几分钟 0-59 第二个 * 一天当中第几个小时 0-23 第三个 * 一个月中的第几天 1-31 第四个
阅读全文
posted @ 2020-12-16 11:29 是阿凯啊
阅读(137)
评论(0)
推荐(0)
2020年11月29日
hadoop-04
摘要: hadoop-04 1.流量案例分析 统计每个人总流量 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apac
阅读全文
posted @ 2020-11-29 23:16 是阿凯啊
阅读(105)
评论(0)
推荐(0)
hadoop03
摘要: hadoop 03 1.checkpoint机制 hadoop如何进行checkpoint的呢? hdfs的源数据记录在内存中,它是一个对象。当客户端进行hdfs操作(rm mkdir...),然后传输给服务端namenode进行解析,执行更新操作,为了保证数据持久化,它会把数据进行序列化存储,当然
阅读全文
posted @ 2020-11-29 11:41 是阿凯啊
阅读(102)
评论(0)
推荐(0)
2020年11月28日
记录一次hadoop自己 埋的坑
摘要: 记录一次hadoop自己 埋的坑 本机使用windows系统运行hadoop的mapreduce.首先我现在的版本是hadoop2.8.5。配置操作 0.配置java环境变量 1.下载hadoop到磁盘上我下载到F:\hadoop-2.8.5 2.下载必要winutils.exe和hadoop.dl
阅读全文
posted @ 2020-11-28 23:21 是阿凯啊
阅读(87)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
29
下一页
公告