……

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 36 下一页
2020年10月9日
摘要: 前言 由于项目需要用到 Groovy 语言,这两天对其进行了粗略的学习,本文是对学习做的一个简单总结,主要内容参考于官方文档(Groovy 的官方文档还是非常不错的,强烈推荐阅读),希望本文对准备学习使用或者对 Groovy 感兴趣的同学有所帮助,如有不对之处还望指出哈,对这门语言的理解还是比较肤浅 阅读全文
posted @ 2020-10-09 17:16 大码王 阅读(817) 评论(0) 推荐(0) 编辑
摘要: hadoop官方文档: 1 https://hadoop.apache.org/docs/ 安装hadoop集群 配置DNS解析或hosts文件: 1 2 3 4 5 6 7 cat > /etc/hosts <<EOF 127.0.0.1 localhost localhost.localdoma 阅读全文
posted @ 2020-10-09 17:10 大码王 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 安装zookeeper之前先安装java: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 tar -xf jdk-8u231-linux-x64.tar.gz -C /usr/local/ cd /usr/local/ ln -sv jdk1.8.0_231/ jdk ca 阅读全文
posted @ 2020-10-09 17:09 大码王 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 安装HBase之前先安装zookeeper。 官方下载地址: 1 http://archive.apache.org/dist/hbase/1.2.1/ 清华下载地址: 1 http://mirror.bit.edu.cn/apache/hbase/ 配置DNS解析: 1 2 3 4 5 6 7 8 阅读全文
posted @ 2020-10-09 09:21 大码王 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 安装spark之前先安装hadoop集群。 spark下载地址: 1 https://downloads.apache.org/spark/ 下载安装包: 1 wget https://downloads.apache.org/spark/spark-2.4.6/spark-2.4.6-bin-ha 阅读全文
posted @ 2020-10-09 09:19 大码王 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 安装hive之前先安装hadoop集群。 hive安装在master节点上,理论上是可以任意安装在其他节点的,不过要配置。 安装mysql:hive需要mysql,测试用root账号即可。 mysql> create user 'hive'@'%' identified by 'hive'; //创 阅读全文
posted @ 2020-10-09 09:17 大码王 阅读(410) 评论(0) 推荐(0) 编辑
2020年9月29日
摘要: 安装kafka之前先安装zookeeper。 配置DNS解析: 1 2 3 4 5 6 7 8 9 10 cat > /etc/hosts <<EOF 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomai 阅读全文
posted @ 2020-09-29 11:13 大码王 阅读(203) 评论(0) 推荐(0) 编辑
2020年9月28日
摘要: 官方文档: 1 https://github.com/medcl/elasticsearch-analysis-ik 创建目录: 1 2 cd xxx/plugins/ mkdir ik 查看版本: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # curl -XGET loca 阅读全文
posted @ 2020-09-28 18:00 大码王 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 安装kylin之前先安装如下: Hadoop: 2.7+, 3.1+ (since v2.5) Hive: 0.13 - 1.2.1+ HBase: 1.1+, 2.0 (since v2.5) Spark (可选) 2.3.0+ Kafka (可选) 1.0.0+ (since v2.5) JDK 阅读全文
posted @ 2020-09-28 17:59 大码王 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 安装Flink之前先安装hadoop集群。 Flink下载: https://flink.apache.org/downloads.html https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.11.1/flink-1.11.1-bin 阅读全文
posted @ 2020-09-28 17:32 大码王 阅读(651) 评论(0) 推荐(0) 编辑
摘要: Table/SQL 的 blink planner 成为默认 Planner。 Flink 1.11 中流计算结合 Hive 批处理数仓,给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外,Flink 1.11 完善了 Flink 自身的 Filesystem conn 阅读全文
posted @ 2020-09-28 15:01 大码王 阅读(689) 评论(0) 推荐(0) 编辑
2020年9月27日
摘要: 一、数仓搭建 - ADS 层1.1 设备主题1.1.1 活跃设备数(日、周、月)需求定义:日活:当日活跃的设备数周活:当周活跃的设备数月活:当月活跃的设备数1)建表语句 drop table if exists ads_uv_count; create external table ads_uv_c 阅读全文
posted @ 2020-09-27 14:37 大码王 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 2.1 设备主题宽表 1)建表语句 drop table if exists dwt_uv_topic; create external table dwt_uv_topic ( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT ' 阅读全文
posted @ 2020-09-27 13:40 大码王 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 一、数仓搭建 - DWS 层1.1 业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据 IMEI 号,IOS 系统根据 OpenUDID 来标识一个独立用户,每部手机一个用户2)新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP,那 阅读全文
posted @ 2020-09-27 13:35 大码王 阅读(849) 评论(0) 推荐(0) 编辑
2020年9月23日
摘要: 1.1 DWD 层(业务数据)1.1.1 商品维度表(全量表)1)建表语句 DROP TABLE IF EXISTS `dwd_dim_sku_info`; CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品 id', 阅读全文
posted @ 2020-09-23 14:13 大码王 阅读(798) 评论(0) 推荐(0) 编辑
摘要: 一、数仓搭建 - DWD 层 1)对用户行为数据解析 2)对核心数据进行判空过滤 3)对业务数据采用维度模型重新建模,即维度退化 1.1 DWD 层(用户行为启动表数据解析) 1.1.1 创建启动表 1)建表语句 drop table if exists dwd_start_log; CREATE 阅读全文
posted @ 2020-09-23 14:07 大码王 阅读(828) 评论(0) 推荐(0) 编辑
2020年9月22日
摘要: 一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表 阅读全文
posted @ 2020-09-22 17:37 大码王 阅读(1153) 评论(0) 推荐(0) 编辑
摘要: 一、电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的 SKU 号SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易 阅读全文
posted @ 2020-09-22 16:22 大码王 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 总结1)数仓概念总结【1】数据仓库的输入数据源和输出系统分别是什么?输入系统:埋点产生的用户行为数据、JavaEE 后台产生的业务数据输出系统:报表系统、用户画像系统、推荐系统2)项目需求及架构总结【1】集群规模计算【2】框架版本选型1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使 阅读全文
posted @ 2020-09-22 15:33 大码王 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 5)Flume安装 一、Flume概述 【1】Flume简介 1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 2)Flume可以采集文件,例如:socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、HBase、h 阅读全文
posted @ 2020-09-22 15:30 大码王 阅读(608) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 36 下一页
复制代码