随笔档案「2018年12月」 - 点点积累

windows电脑上安装虚拟机

摘要：1.搭建虚拟机环境 1）先安装VMware10，在本机上双击VMware10.exe,安装过程要用密钥，双击VM10KeyGen.exe会生成密钥，输入就可以了 2）在VMware中新建虚拟机，加载系统，选CentOS-7-x86_64-Minimal-1611.iso镜像文件，安装操作系统，安装过阅读全文

posted @ 2018-12-30 19:11 点点积累阅读(2374) 评论(0) 推荐(0)

java序列化和反序列化及序列化方式

摘要：平时我们在Java内存中的对象，是无法进行IO操作或者网络通信的，因为在进行IO操作或者网络通信的时候，人家根本不知道内存中的对象是个什么东西，因此必须将对象以某种方式表示出来，即存储对象中的状态。一个Java对象的表示有各种各样的方式，Java本身也提供给了用户一种表示对象的方式，那就是序列化阅读全文

posted @ 2018-12-14 15:45 点点积累阅读(1711) 评论(0) 推荐(0)

spark源码本地调试

摘要：1、前提条件： 1）安装jdk 版本： 2）安装scala 版本： 3）安装sbt 版本： 4）安装maven 5）安装git 版本： 6）安装idea，并配置好sbt、git、maven 2、从github上下载源码spark-master.zip文件，并解压 3、编译： windows命令窗口，阅读全文

posted @ 2018-12-02 18:31 点点积累阅读(1055) 评论(0) 推荐(0)

数据库分层概念

摘要：数据仓库的整理架构，各个系统的元数据通过ETL同步到操作性数据仓库ODS中，对ODS数据进行面向主题域建模形成DW（数据仓库），DM是针对某一个业务领域建立模型，具体用户（决策层）查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 3.ODS、DW、DM协作层次图协作层次 4.通过一个简单阅读全文

posted @ 2018-12-02 18:22 点点积累阅读(3496) 评论(0) 推荐(0)

大数据常见问题整理

摘要：讲述HDFS上传文件和读文件的流程 HDFS 上传流程过程解析：详解这里描述的是一个256M的文件上传过程 ① 由客户端向 NameNode节点节点发出请求②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循机架感应原则③客户端首先根据返回的信息先将阅读全文

posted @ 2018-12-02 18:21 点点积累阅读(1806) 评论(0) 推荐(0)

scala基础

摘要：一、搭建环境： 1.下载 2.解压 3.配置环境变量，把SCALA_HOME/bin加到path 4.scala基于JVM运行，需要安装jdk 二、scala是纯面向对象的语文，一切皆对象，一切对象都有方法，java是支持面向对象的 1.var name="jack" var 可变变量，可以被改变阅读全文

posted @ 2018-12-02 18:18 点点积累阅读(292) 评论(0) 推荐(0)

redis常用命令

摘要：常用命令： 1.设置string >set mykey "hello" >ok 2.取String >get mykey >"hello" 3.hash存数据 >hset user name "张三" > (integer) 1 >hset user age 18 >(integer) 1 4.查看阅读全文

posted @ 2018-12-02 18:17 点点积累阅读(323) 评论(0) 推荐(0)

hadoop ha集群搭建

摘要：一、虚拟机准备 1）克隆：原来装了一台虚拟机，现在要克隆出4台一样的虚拟机虚拟机右击-》管理-》克隆，【创建完整克隆】就可以了 CentOS 64，CentOS 64-1，CentOS 64-2 ，CentOS 64-3 三台机器 2）修改网络IP：在-1机器上 su root 进入root角阅读全文

posted @ 2018-12-02 18:16 点点积累阅读(276) 评论(0) 推荐(0)

Hbase性能优化

摘要：HBase性能优化方法总结 HBase性能优化方法总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。阅读全文

posted @ 2018-12-02 17:56 点点积累阅读(186) 评论(0) 推荐(0)

hbase常用命令

摘要：进入hbase命令行：任意目录 hbase shell 进入命令行后，hbase查看表：list 查看表中所有数据：scan 'table_name' 如：scan 'dim_user_city' 创建表： create '表名'，'别名' create 'dim_user_firstcity',' 阅读全文

posted @ 2018-12-02 17:52 点点积累阅读(331) 评论(0) 推荐(0)

datax二次开发

摘要：从hive抽取数据，写入hbase 一、datax插件hbase12xwriter开发查看datax源码，发现有hbase094xwriter和hbase11xwriter源码，说明datax支持hbase写入，再查看测试和生产环境使用的hbase版本是：hbase-1.2.0-cdh5.8.4 阅读全文

posted @ 2018-12-02 17:47 点点积累阅读(11202) 评论(2) 推荐(1)

实时数据同步方案

摘要：一.Flume收集各数据库日志，准实时抽取到HDFS 安装HDP，包含Flume 方案优点： 1.配置简单，不用编程：只要在flume.conf文件中配置source、channel及sink的相关属性 2.采用普通SQL轮询的方式实现，具有通用性，适用于所有关系库数据源方案缺点： 1.在源库上执阅读全文

posted @ 2018-12-01 22:29 点点积累阅读(14130) 评论(2) 推荐(0)

hadoop常见命令

摘要：常用命令启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容：hadoop fs –ls [文件目录][root@cdh01 tmp]# 阅读全文

posted @ 2018-12-01 22:28 点点积累阅读(409) 评论(0) 推荐(0)

kafka常见命令

摘要：基础命令查看已有topic 进入kafka解压目录：/home/zallds/kafka_2.10-0.10.2.1 执行如下命令，就会列出所有topic [zallds@PUBLIC-26 bin]$ bin/kafka-topics.sh -list -zookeeper localhost: 阅读全文

posted @ 2018-12-01 22:26 点点积累阅读(241) 评论(0) 推荐(0)

hive创建分区表

摘要：#创建分区表CREATE TABLE if not exists data_center.test_partition (id int,name string,age int)PARTITIONED BY (date_id string)row format delimited fields ter 阅读全文

posted @ 2018-12-01 22:25 点点积累阅读(18443) 评论(0) 推荐(0)

hive不分区增量更新

摘要：insert overwrite table ods.zeg_so select *,case when zsm.id is not null then cast(current_timestamp as string) else zs.etl_update end etl_update from 阅读全文

posted @ 2018-12-01 22:23 点点积累阅读(2421) 评论(0) 推荐(0)

hive建表结构

摘要：drop table dw.fct_so;create table dw.fct_so(so_id bigint comment '订单ID',parent_so_id bigint comment '父订单ID (如果未拆单,则等于so_id)',order_code string comment 阅读全文

posted @ 2018-12-01 22:21 点点积累阅读(996) 评论(0) 推荐(0)

Hive 常用命令

摘要：1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table 阅读全文

posted @ 2018-12-01 22:14 点点积累阅读(2140) 评论(0) 推荐(0)

Hive内部表与外部表区别

摘要：1）创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。 2）删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。阅读全文

posted @ 2018-12-01 22:08 点点积累阅读(1357) 评论(0) 推荐(0)

点点积累

12 2018 档案

公告