12 2018 档案

摘要:1.搭建虚拟机环境 1)先安装VMware10,在本机上双击VMware10.exe,安装过程要用密钥,双击VM10KeyGen.exe会生成密钥,输入就可以了 2)在VMware中新建虚拟机,加载系统,选CentOS-7-x86_64-Minimal-1611.iso镜像文件,安装操作系统,安装过 阅读全文
posted @ 2018-12-30 19:11 点点积累 阅读(2374) 评论(0) 推荐(0)
摘要:平时我们在Java内存中的对象,是无 法进行IO操作或者网络通信的,因为在进行IO操作或者网络通信的时候,人家根本不知道内存中的对象是个什么东西,因此必须将对象以某种方式表示出来,即 存储对象中的状态。一个Java对象的表示有各种各样的方式,Java本身也提供给了用户一种表示对象的方式,那就是序列化 阅读全文
posted @ 2018-12-14 15:45 点点积累 阅读(1711) 评论(0) 推荐(0)
摘要:1、前提条件: 1)安装jdk 版本: 2)安装scala 版本: 3)安装sbt 版本: 4)安装maven 5)安装git 版本: 6)安装idea,并配置好sbt、git、maven 2、从github上下载源码spark-master.zip文件,并解压 3、编译: windows命令窗口, 阅读全文
posted @ 2018-12-02 18:31 点点积累 阅读(1055) 评论(0) 推荐(0)
摘要:数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 3.ODS、DW、DM协作层次图 协作层次 4.通过一个简单 阅读全文
posted @ 2018-12-02 18:22 点点积累 阅读(3496) 评论(0) 推荐(0)
摘要:讲述HDFS上传文件和读文件的流程 HDFS 上传流程 过程解析:详解这里描述的 是一个256M的文件上传过程 ① 由客户端 向 NameNode节点节点 发出请求②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则③客户端 首先 根据返回的信息 先将 阅读全文
posted @ 2018-12-02 18:21 点点积累 阅读(1806) 评论(0) 推荐(0)
摘要:一、搭建环境: 1.下载 2.解压 3.配置环境变量,把SCALA_HOME/bin加到path 4.scala基于JVM运行,需要安装jdk 二、scala是纯面向对象的语文,一切皆对象,一切对象都有方法,java是支持面向对象的 1.var name="jack" var 可变变量,可以被改变 阅读全文
posted @ 2018-12-02 18:18 点点积累 阅读(292) 评论(0) 推荐(0)
摘要:常用命令: 1.设置string >set mykey "hello" >ok 2.取String >get mykey >"hello" 3.hash存数据 >hset user name "张三" > (integer) 1 >hset user age 18 >(integer) 1 4.查看 阅读全文
posted @ 2018-12-02 18:17 点点积累 阅读(323) 评论(0) 推荐(0)
摘要:一、虚拟机准备 1)克隆:原来装了一台虚拟机,现在要克隆出4台一样的虚拟机 虚拟机右击-》管理-》克隆 ,【创建完整克隆】就可以了 CentOS 64,CentOS 64-1,CentOS 64-2 ,CentOS 64-3 三台机器 2)修改网络IP: 在-1机器上 su root 进入root角 阅读全文
posted @ 2018-12-02 18:16 点点积累 阅读(276) 评论(0) 推荐(0)
摘要:HBase性能优化方法总结 HBase性能优化方法总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。 阅读全文
posted @ 2018-12-02 17:56 点点积累 阅读(186) 评论(0) 推荐(0)
摘要:进入hbase命令行:任意目录 hbase shell 进入命令行后,hbase查看表:list 查看表中所有数据:scan 'table_name' 如:scan 'dim_user_city' 创建表: create '表名','别名' create 'dim_user_firstcity',' 阅读全文
posted @ 2018-12-02 17:52 点点积累 阅读(331) 评论(0) 推荐(0)
摘要:从hive抽取数据,写入hbase 一、datax插件hbase12xwriter开发 查看datax源码,发现有hbase094xwriter和hbase11xwriter源码,说明datax支持hbase写入,再查看测试和生产环境使用的hbase版本是:hbase-1.2.0-cdh5.8.4 阅读全文
posted @ 2018-12-02 17:47 点点积累 阅读(11202) 评论(2) 推荐(1)
摘要:一.Flume收集各数据库日志,准实时抽取到HDFS 安装HDP,包含Flume 方案优点: 1.配置简单,不用编程:只要在flume.conf文件中配置source、channel及sink的相关属性 2.采用普通SQL轮询的方式实现,具有通用性,适用于所有关系库数据源 方案缺点: 1.在源库上执 阅读全文
posted @ 2018-12-01 22:29 点点积累 阅读(14130) 评论(2) 推荐(0)
摘要:常用命令 启动Hadoop 进入HADOOP_HOME目录。 执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。 执行sh bin/stop-all.sh 1、查看指定目录下内容:hadoop fs –ls [文件目录][root@cdh01 tmp]#  阅读全文
posted @ 2018-12-01 22:28 点点积累 阅读(409) 评论(0) 推荐(0)
摘要:基础命令 查看已有topic 进入kafka解压目录:/home/zallds/kafka_2.10-0.10.2.1 执行如下命令,就会列出所有topic [zallds@PUBLIC-26 bin]$ bin/kafka-topics.sh -list -zookeeper localhost: 阅读全文
posted @ 2018-12-01 22:26 点点积累 阅读(241) 评论(0) 推荐(0)
摘要:#创建分区表CREATE TABLE if not exists data_center.test_partition (id int,name string,age int)PARTITIONED BY (date_id string)row format delimited fields ter 阅读全文
posted @ 2018-12-01 22:25 点点积累 阅读(18443) 评论(0) 推荐(0)
摘要:insert overwrite table ods.zeg_so select *,case when zsm.id is not null then cast(current_timestamp as string) else zs.etl_update end etl_update from 阅读全文
posted @ 2018-12-01 22:23 点点积累 阅读(2421) 评论(0) 推荐(0)
摘要:drop table dw.fct_so;create table dw.fct_so(so_id bigint comment '订单ID',parent_so_id bigint comment '父订单ID (如果未拆单,则等于so_id)',order_code string comment 阅读全文
posted @ 2018-12-01 22:21 点点积累 阅读(996) 评论(0) 推荐(0)
摘要:1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table 阅读全文
posted @ 2018-12-01 22:14 点点积累 阅读(2140) 评论(0) 推荐(0)
摘要:1)创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。 2)删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 阅读全文
posted @ 2018-12-01 22:08 点点积累 阅读(1357) 评论(0) 推荐(0)