2019 年 6月随笔档案 - BBBone

Spark中持久化和序列化学习

摘要：一、cache和persisit的对比-rw-r--r--@ 1 hadoop staff 68M 5 17 07:04 access.logcache/persitence是 lazy的,延迟加载unpersitence是立即执行的@DeveloperApiclass StorageLevel private( private var _useDisk: Boolean, ... 阅读全文

posted @ 2019-06-27 15:35 BBBone 阅读(412) 评论(0) 推荐(0) 编辑

Scala学习

摘要：https://github.com/xingsuio/scalaPra 阅读全文

posted @ 2019-06-27 15:17 BBBone 阅读(119) 评论(0) 推荐(0) 编辑

Hive静态分区和动态分区,对应Mysql中的元数据信息

摘要：静态分区:手动指定分区加载数据，就是常说的静态分区的使用。但是在日常工作中用的比较多的是动态分区。创建:hive> create table order_mulit_partition( > order_number string, > event_time string > ) > PARTITIONED BY(event_month string, step str... 阅读全文

posted @ 2019-06-24 19:01 BBBone 阅读(507) 评论(0) 推荐(0) 编辑

RDD

摘要：RDD five main propertiesMethodLocationInputOutputA list of partitionsgetPartitions?-[Partition]A function for computing each splitcompute?PartitionIterableA list of dependencies on other RDDgetDepend... 阅读全文

posted @ 2019-06-24 11:02 BBBone 阅读(206) 评论(0) 推荐(0) 编辑

YARN HA部署架构

摘要：hadoop001: zk rm(zkfc线程) nmhadoop002: zk rm(zkfc线程) nmhadoop003: zk nmRMStateStore: 存储在ZK的/rmstore目录下ZKFC仅仅是线程大数据的数据是不能丢的,但是作业是可以挂的,挂了重启即可.因此YARN的架构比较轻量级,HDFS的架构相对来说,比较重量级别.小结:当我们RM进程启动... 阅读全文

posted @ 2019-06-24 11:00 BBBone 阅读(898) 评论(0) 推荐(0) 编辑

Hadoop HA 架构

摘要：为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件, 都是主从架构 master-slaveHDFS读写请求都是先到NN节点,但是,HBase 读写请求不是经过master, 建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务 (-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active... 阅读全文

posted @ 2019-06-24 10:59 BBBone 阅读(324) 评论(0) 推荐(0) 编辑

Zookeeper学习(一)

摘要：shell角度API角度Zookeeper可单节点,可分布式作用: distributed coordination(分布式协调)同一时间只有一个对外提供服务,另外的就是standy.当active挂了,就想standy切过来即可,无感知.监控节点的状态信息,完全可以用过zk来实现安装配置:$ tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/apps/... 阅读全文

posted @ 2019-06-24 10:56 BBBone 阅读(235) 评论(0) 推荐(0) 编辑

HDFS与YARN HA部署配置文件

摘要：core-site.xml fs.defaultFS hdfs://ruozeclusterg6 fs.trash.checkpoint.interval 0个路径中 --> hadoop.tmp.dir /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/tmp#hadoop.tmp.dir需要自己创建[hadoop@h... 阅读全文

posted @ 2019-06-24 10:56 BBBone 阅读(153) 评论(0) 推荐(0) 编辑

Kafka学习(一)

摘要：官网kafka.apache.org集群部署消息中间键 --> 分布式流式平台 Kafka StreamingFlume: 1个进程包含三个角色 source channle sinkKakfa: 每个进程对应一个角色 producer broker consumer Flume --> Kafka --> Spark Streaming/Fink (场... 阅读全文

posted @ 2019-06-24 10:45 BBBone 阅读(202) 评论(0) 推荐(0) 编辑

Azkaban(3.x)编译安装使用

摘要：官网地址:https://azkaban.readthedocs.ioAzkaban 有三种部署方式：单服务模式、2个服务模式、分布式多服务模式简单实用仅需单服务模式即可2个服务模式,需要配置mysql, Azkaban使用MySQL来存储项目和执行它具有如下功能特点：1、Web用户界面2、方便上传工作流3、方便设置任务之间的关系4、工作流调度5、认证/授权6、能够杀死并重启工作流7、模块化和可... 阅读全文

posted @ 2019-06-24 10:41 BBBone 阅读(591) 评论(0) 推荐(0) 编辑

Spark的Monitoring

摘要：一、启动历史页面监控配置:$ vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop000:8020/g6_directory$ vi spark-env.shSPARK_HISTORY_OPTS="-Dspark.history.fs.log... 阅读全文

posted @ 2019-06-24 10:38 BBBone 阅读(306) 评论(0) 推荐(0) 编辑

HBase安装学习

摘要：一、下载安装$ wget http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz$ tar -zxvf hbase-1.2.0-cdh5.7.0.tar.gz -C ~/apps$ cd ~/apps/hbase-1.2.0-cdh5.7.0二、配置文件$ vi conf/hbase-site.xml hbas... 阅读全文

posted @ 2019-06-20 03:31 BBBone 阅读(182) 评论(0) 推荐(0) 编辑

Zeppelie连接jdbc的使用

摘要：1. 下载 wget http://apache.mirror.cdnetworks.com/zeppelin/zeppelin-0.8.1/zeppelin-0.8.1-bin-all.tgz2. 解压 tar -zxvf zeppelin-0.8.1-bin-all.tgz -C ~/app/3. 启动/关闭 ./bin/zeppelin-daemon.sh start/start4. 查看状... 阅读全文

posted @ 2019-06-19 11:52 BBBone 阅读(291) 评论(0) 推荐(0) 编辑

BBBone

06 2019 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

推荐排行榜