会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
清浊
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
20
下一页
2020年9月29日
计算框架
摘要: 1、mapreduce 移动计算不移动数据,那个节点有数据就拷贝一份程序过去运行。input对数据进行split,变成数据的片段。 shuffler,在mapper和reduce之间。map输出的数据按照key重新切分和组合成n份。partion,sort,spilll to disk。fetch
阅读全文
posted @ 2020-09-29 09:41 清浊
阅读(348)
评论(0)
推荐(0)
编辑
2020年9月28日
hdfs
摘要: 1、缺点 低延迟数据访问 毫秒级访问 低延迟与高吞吐率 小文件存取 占用namenode大量内存 寻道时间远大于读取时间 并发写入随机修改 一个文件只能有一个写者 支持append 2、namenode 所有的读写请求都是指向namenode 保存所有文件的metadata,包括文件的owershi
阅读全文
posted @ 2020-09-28 16:52 清浊
阅读(110)
评论(0)
推荐(0)
编辑
2020年9月8日
hbase
摘要: 1、基于hdfs的大表,支持增删改查。 2、列族,很多个列一起定义一个列族,相关的列放到一个列族,相当于竖切。 3、行键,字典序,按位比较。 4、region 横向表的切分,对照mysql的就是横切。 5、store,物理存储包含rowkey,列族名,列名,时间搓,类型,value。随机写就是靠时间
阅读全文
posted @ 2020-09-08 19:56 清浊
阅读(108)
评论(0)
推荐(0)
编辑
Disruptor核心概念
摘要: 1、ringbuffer,基于数组实现,sequencer和waitstrategy的入口 2、disruptor,持有ringbuffer,消费者线程池executor,消费者集合ComsumerRepository等引用 3、sequence
阅读全文
posted @ 2020-09-08 14:37 清浊
阅读(139)
评论(0)
推荐(0)
编辑
2020年8月28日
redis详解一
摘要: RDBMS 1、结构化组织 2、SQL 3、数据和关系存在一张表中 4、事务一致性 NoSQL 1、 不仅仅是数据 2、没有查询语言 3、键值对,列存储,文档存储,图存储 4、最终一次性 CAP和BASE定理 NOSQL分类 键值对,列存储,文档存储,图存储 KV数据库 新浪:Redis 美团:Re
阅读全文
posted @ 2020-08-28 18:04 清浊
阅读(142)
评论(0)
推荐(0)
编辑
2020年8月18日
程序员数学
摘要: 1、零的作用 占位符,统一规则,2的0次方就是1,
阅读全文
posted @ 2020-08-18 17:41 清浊
阅读(206)
评论(0)
推荐(0)
编辑
下面是一个azakaban调度大数据脚本的例子
摘要: 1、首先上传job,利用定时任务将日志文件上传到hdfs # upload.job type=command command=bash uploadFile2Hdfs.sh #!/bin/bash #set java env export JAVA_HOME=/soft/jdk/ export JR
阅读全文
posted @ 2020-08-18 14:41 清浊
阅读(450)
评论(0)
推荐(0)
编辑
2020年8月7日
记录一个hive清空外部表数据的办法
摘要: insert overwrite table access select * from access where ip =0; insert into mydb2.upflow select ip,sum(upflow) as sum from mydb2.access group by ip or
阅读全文
posted @ 2020-08-07 16:13 清浊
阅读(2091)
评论(0)
推荐(0)
编辑
2020年7月20日
azkaban工作流调度器
摘要: 1、用途 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生
阅读全文
posted @ 2020-07-20 11:33 清浊
阅读(204)
评论(0)
推荐(0)
编辑
2020年7月17日
sqoop使用详解
摘要: 1、sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 2、将导入或导出命令翻译成mapreduce
阅读全文
posted @ 2020-07-17 16:28 清浊
阅读(546)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
8
···
20
下一页