摘要: 1、前提条件: 1)安装jdk 版本: 2)安装scala 版本: 3)安装sbt 版本: 4)安装maven 5)安装git 版本: 6)安装idea,并配置好sbt、git、maven 2、从github上下载源码spark-master.zip文件,并解压 3、编译: windows命令窗口, 阅读全文
posted @ 2018-12-02 18:31 点点积累 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 3.ODS、DW、DM协作层次图 协作层次 4.通过一个简单 阅读全文
posted @ 2018-12-02 18:22 点点积累 阅读(3441) 评论(0) 推荐(0) 编辑
摘要: 讲述HDFS上传文件和读文件的流程 HDFS 上传流程 过程解析:详解这里描述的 是一个256M的文件上传过程 ① 由客户端 向 NameNode节点节点 发出请求②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则③客户端 首先 根据返回的信息 先将 阅读全文
posted @ 2018-12-02 18:21 点点积累 阅读(1740) 评论(0) 推荐(0) 编辑
摘要: 一、搭建环境: 1.下载 2.解压 3.配置环境变量,把SCALA_HOME/bin加到path 4.scala基于JVM运行,需要安装jdk 二、scala是纯面向对象的语文,一切皆对象,一切对象都有方法,java是支持面向对象的 1.var name="jack" var 可变变量,可以被改变 阅读全文
posted @ 2018-12-02 18:18 点点积累 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 常用命令: 1.设置string >set mykey "hello" >ok 2.取String >get mykey >"hello" 3.hash存数据 >hset user name "张三" > (integer) 1 >hset user age 18 >(integer) 1 4.查看 阅读全文
posted @ 2018-12-02 18:17 点点积累 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 一、虚拟机准备 1)克隆:原来装了一台虚拟机,现在要克隆出4台一样的虚拟机 虚拟机右击-》管理-》克隆 ,【创建完整克隆】就可以了 CentOS 64,CentOS 64-1,CentOS 64-2 ,CentOS 64-3 三台机器 2)修改网络IP: 在-1机器上 su root 进入root角 阅读全文
posted @ 2018-12-02 18:16 点点积累 阅读(257) 评论(0) 推荐(0) 编辑
摘要: HBase性能优化方法总结 HBase性能优化方法总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。 阅读全文
posted @ 2018-12-02 17:56 点点积累 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 进入hbase命令行:任意目录 hbase shell 进入命令行后,hbase查看表:list 查看表中所有数据:scan 'table_name' 如:scan 'dim_user_city' 创建表: create '表名','别名' create 'dim_user_firstcity',' 阅读全文
posted @ 2018-12-02 17:52 点点积累 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 从hive抽取数据,写入hbase 一、datax插件hbase12xwriter开发 查看datax源码,发现有hbase094xwriter和hbase11xwriter源码,说明datax支持hbase写入,再查看测试和生产环境使用的hbase版本是:hbase-1.2.0-cdh5.8.4 阅读全文
posted @ 2018-12-02 17:47 点点积累 阅读(10999) 评论(2) 推荐(1) 编辑