摘要: (一)、Spark读取HBase中的数据 hbase中的数据 (二)、Spark写HBase 1.第一种方式: 2.第二种方式: 阅读全文
posted @ 2018-02-28 15:34 asura7969 阅读(3749) 评论(0) 推荐(1) 编辑
摘要: 一、Spark on Standalone 1.spark集群启动后,Worker向Master注册信息 2.spark-submit命令提交程序后,driver和application也会向Master注册信息 3.创建SparkContext对象:主要的对象包含DAGScheduler和Task 阅读全文
posted @ 2018-02-11 15:00 asura7969 阅读(3821) 评论(0) 推荐(1) 编辑
摘要: Spark Streaming处于Spark生态技术栈中,可以和Spark Core和Spark SQL无缝整合;而Storm相对来说比较单一; (一)概述 Spark Streaming Spark Streaming是Spark的核心API的一个扩展,可以实现高吞吐量、具有容错机制的实时流数据的 阅读全文
posted @ 2018-01-22 22:18 asura7969 阅读(285) 评论(0) 推荐(0) 编辑
摘要: HBase简介: HBase Hadoop DataBase,是一个高可靠、高性能、面向列、可存储、实时读写的分布式数据库 利用HBase HDFS作为其文件存储系统 HBase数据模型: (1)RowKey: 决定一行数据,按照字典顺序排序,RowKey只能存储64K字节数据 (2)Column 阅读全文
posted @ 2018-01-21 11:50 asura7969 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 1、Hive概念: hive是数据仓库,由解释器、优化器和编译器组成;运行时,元数据存储在关系型数据库中。 2、Hive的架构: (1)用户接口主要有三个:CLi、Client和WUI。其中最常用的是CLi,CLi启动时候,会启动一个Hive副本。Client是hive的客户端,用户连接至Hive 阅读全文
posted @ 2018-01-20 14:53 asura7969 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 1、synchronized 所重入场景: 继承关系的类,子类调用父类的方法 线程安全 带有synchronized关键字的方法互相调用 线程安全 2、volatile 作用:是变量在多个线程中可见,当改变变量值时(注意,改变的是主内存的值),每个线程的工作内存还是原先的值; 强制线程到主内存(共享 阅读全文
posted @ 2018-01-20 13:01 asura7969 阅读(339) 评论(0) 推荐(0) 编辑
摘要: hadoop的核心组件:hdfs(分布式文件系统)、mapreduce(分布式计算框架)、Hive(基于hadoop的数据仓库)、HBase(分布式列存数据库)、Zookeeper(分布式协作服务)、Sqoop(数据同步工具)和Flume(日志手机工具) hdfs(分布式文件系统): 由client 阅读全文
posted @ 2018-01-19 22:44 asura7969 阅读(2332) 评论(0) 推荐(0) 编辑
摘要: Storm安装 1、启动zookeeper集群 2、上传解压storm包 3、进入解压包,配置conf目录下的storm.yaml文件 a) 这里配置zookeeper节点,可以用ip或者域名 b) 配置nimbus.host作为主节点名 1、将解压的storm包分发到各个节点 2、scp -r a 阅读全文
posted @ 2018-01-19 21:53 asura7969 阅读(195) 评论(0) 推荐(0) 编辑