大码王 - 博客园

2020年10月9日

摘要：前言由于项目需要用到 Groovy 语言，这两天对其进行了粗略的学习，本文是对学习做的一个简单总结，主要内容参考于官方文档（Groovy 的官方文档还是非常不错的，强烈推荐阅读），希望本文对准备学习使用或者对 Groovy 感兴趣的同学有所帮助，如有不对之处还望指出哈，对这门语言的理解还是比较肤浅阅读全文

posted @ 2020-10-09 17:16 大码王阅读(817) 评论(0) 推荐(0) 编辑

大数据运维（46）hadoop 2.10集群搭建

摘要： hadoop官方文档： 1 https://hadoop.apache.org/docs/ 安装hadoop集群配置DNS解析或hosts文件： 1 2 3 4 5 6 7 cat > /etc/hosts <<EOF 127.0.0.1 localhost localhost.localdoma 阅读全文

posted @ 2020-10-09 17:10 大码王阅读(346) 评论(0) 推荐(0) 编辑

大数据运维（45）zookeeper 3.4集群搭建

摘要：安装zookeeper之前先安装java： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 tar -xf jdk-8u231-linux-x64.tar.gz -C /usr/local/ cd /usr/local/ ln -sv jdk1.8.0_231/ jdk ca 阅读全文

posted @ 2020-10-09 17:09 大码王阅读(125) 评论(0) 推荐(0) 编辑

大数据运维（44）HBase 1.2.1集群部署

摘要：安装HBase之前先安装zookeeper。官方下载地址： 1 http://archive.apache.org/dist/hbase/1.2.1/ 清华下载地址： 1 http://mirror.bit.edu.cn/apache/hbase/ 配置DNS解析： 1 2 3 4 5 6 7 8 阅读全文

posted @ 2020-10-09 09:21 大码王阅读(251) 评论(0) 推荐(0) 编辑

大数据运维（43）Spark 2.4.6集群部署

摘要：安装spark之前先安装hadoop集群。 spark下载地址： 1 https://downloads.apache.org/spark/ 下载安装包： 1 wget https://downloads.apache.org/spark/spark-2.4.6/spark-2.4.6-bin-ha 阅读全文

posted @ 2020-10-09 09:19 大码王阅读(342) 评论(0) 推荐(0) 编辑

大数据运维（42）Hive 2.3.7搭建

摘要：安装hive之前先安装hadoop集群。 hive安装在master节点上，理论上是可以任意安装在其他节点的，不过要配置。安装mysql：hive需要mysql，测试用root账号即可。 mysql> create user 'hive'@'%' identified by 'hive'; //创阅读全文

posted @ 2020-10-09 09:17 大码王阅读(410) 评论(0) 推荐(0) 编辑

2020年9月29日

大数据运维（41）kafka 2.3.0集群部署

摘要：安装kafka之前先安装zookeeper。配置DNS解析： 1 2 3 4 5 6 7 8 9 10 cat > /etc/hosts <<EOF 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomai 阅读全文

posted @ 2020-09-29 11:13 大码王阅读(203) 评论(0) 推荐(0) 编辑

2020年9月28日

大数据运维（40）ElasticSearch安装ik中文分词器

摘要：官方文档： 1 https://github.com/medcl/elasticsearch-analysis-ik 创建目录： 1 2 cd xxx/plugins/ mkdir ik 查看版本： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # curl -XGET loca 阅读全文

posted @ 2020-09-28 18:00 大码王阅读(139) 评论(0) 推荐(0) 编辑

大数据运维（39）Kylin 3.1.0集群部署

摘要：安装kylin之前先安装如下： Hadoop: 2.7+, 3.1+ (since v2.5) Hive: 0.13 - 1.2.1+ HBase: 1.1+, 2.0 (since v2.5) Spark (可选) 2.3.0+ Kafka (可选) 1.0.0+ (since v2.5) JDK 阅读全文

posted @ 2020-09-28 17:59 大码王阅读(457) 评论(0) 推荐(0) 编辑

大数据运维（38）Flink 1.11.1部署安装

摘要：安装Flink之前先安装hadoop集群。 Flink下载： https://flink.apache.org/downloads.html https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.11.1/flink-1.11.1-bin 阅读全文

posted @ 2020-09-28 17:32 大码王阅读(651) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（28）Flink 1.11 新特性：流批一体的 Hive 数仓

摘要： Table/SQL 的 blink planner 成为默认 Planner。 Flink 1.11 中流计算结合 Hive 批处理数仓，给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外，Flink 1.11 完善了 Flink 自身的 Filesystem conn 阅读全文

posted @ 2020-09-28 15:01 大码王阅读(689) 评论(0) 推荐(0) 编辑

2020年9月27日

项目实战从0到1之hive（29）企业级数据仓库构建（十）：搭建 ADS 层

摘要：一、数仓搭建 - ADS 层1.1 设备主题1.1.1 活跃设备数（日、周、月）需求定义：日活：当日活跃的设备数周活：当周活跃的设备数月活：当月活跃的设备数1）建表语句 drop table if exists ads_uv_count; create external table ads_uv_c 阅读全文

posted @ 2020-09-27 14:37 大码王阅读(460) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（28）数仓项目（九）数仓搭建-DWT 层

摘要： 2.1 设备主题宽表 1）建表语句 drop table if exists dwt_uv_topic; create external table dwt_uv_topic ( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT ' 阅读全文

posted @ 2020-09-27 13:40 大码王阅读(632) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（27）数仓项目（九）数仓搭建 - DWS 层

摘要：一、数仓搭建 - DWS 层1.1 业务术语1）用户用户以设备为判断标准，在移动统计中，每个独立设备认为是一个独立用户。Android系统根据 IMEI 号，IOS 系统根据 OpenUDID 来标识一个独立用户，每部手机一个用户2）新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP，那阅读全文

posted @ 2020-09-27 13:35 大码王阅读(849) 评论(0) 推荐(0) 编辑

2020年9月23日

项目实战从0到1之hive（26）企业级数据仓库构建（八）：搭建DWD 层-业务数据

摘要： 1.1 DWD 层（业务数据）1.1.1 商品维度表（全量表）1）建表语句 DROP TABLE IF EXISTS `dwd_dim_sku_info`; CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品 id', 阅读全文

posted @ 2020-09-23 14:13 大码王阅读(798) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（25）企业级数据仓库构建（七）：搭建DWD 层

摘要：一、数仓搭建 - DWD 层 1）对用户行为数据解析 2）对核心数据进行判空过滤 3）对业务数据采用维度模型重新建模，即维度退化 1.1 DWD 层（用户行为启动表数据解析） 1.1.1 创建启动表 1）建表语句 drop table if exists dwd_start_log; CREATE 阅读全文

posted @ 2020-09-23 14:07 大码王阅读(828) 评论(0) 推荐(0) 编辑

2020年9月22日

项目实战从0到1之hive（24）企业级数据仓库构建（六）：数仓理论及数仓搭建

摘要：一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名临时表命名为xxx_tmp 用户行为表阅读全文

posted @ 2020-09-22 17:37 大码王阅读(1153) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（23）企业级数据仓库构建（五）：数据仓库项目实战

摘要：一、电商业务简介1.1 电商业务流程1.2 电商常识（SKU、SPU）SKU=Stock Keeping Unit（库存量基本单位）。现在已经被引申为产品统一编号的简称，每种产品均对应有唯一的 SKU 号SPU（Standard Product Unit）：是商品信息聚合的最小单位，是一组可复用、易阅读全文

posted @ 2020-09-22 16:22 大码王阅读(1078) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（22）企业级数据仓库构建（四）：数据仓库项目实战

摘要：总结1）数仓概念总结【1】数据仓库的输入数据源和输出系统分别是什么？输入系统：埋点产生的用户行为数据、JavaEE 后台产生的业务数据输出系统：报表系统、用户画像系统、推荐系统2）项目需求及架构总结【1】集群规模计算【2】框架版本选型1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使阅读全文

posted @ 2020-09-22 15:33 大码王阅读(659) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（21）企业级数据仓库构建（三）：数据采集模块环境搭建（2）

摘要： 5）Flume安装一、Flume概述【1】Flume简介 1）Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 2）Flume可以采集文件，例如：socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、HBase、h 阅读全文

posted @ 2020-09-22 15:30 大码王阅读(608) 评论(0) 推荐(0) 编辑

公告