03 2019 档案
摘要:Logstash数据处理工具 具有实时渠道能力的数据收集引擎,包含输入、过滤、输出模块,一般在过滤模块中做日志格式化的解析工作 日志信息-->logstsh-->json形式 mysql\ hbase\ ES-->logstsh(select * from user)-->ES logstsh架构
阅读全文
摘要:检查集群是否正确启动 http://192.168.1.101:9200/_cat/nodes?v {"error":{"root_cause":[{"type":"master_not_discovered_exception","reason":null}],"type":"master_not
阅读全文
摘要:1、数仓分层 分层 提高复用性、 减少重复开发 数据集市与数据仓库的区别 数据集市:狭义ADS层; 广义上指DWD DWS ADS 从hadoop同步到RDS的数据 数仓命名规范 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命
阅读全文
摘要:1. ElasticSearch概述 Elasticsearch是一个高度可伸缩的 基于Apache Lucene(TM)的 开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜 索引擎,为需要复杂搜索功能的应用提供支持。 Elast
阅读全文
摘要:数仓分层搭建导入数据 1.ODS层 ① 用户行为数据日志表 创建输入支持lzo压缩、输出是text,支持Json解析解析的分区表 hive (gmall)> drop table if exists ods_log; CREATE EXTERNAL TABLE ods_log (`line` str
阅读全文
摘要:只要是insert into 的就是没分区 数据需求 需求一:用户活跃主题 DWS层--(用户行为宽表层) 目标:统计当日、当周、当月活动的每个设备明细 1 每日活跃设备明细 dwd_start_log >dws_uv_detail_day --把相同的字段collect_set到一个数组, 按mi
阅读全文
摘要:用户行为数据 1、数据的生成 1. 目标数据 收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。 页面、事件、曝光、启动、错误等数据,还有公共信息: common "common": { -- 公共信息 "ar": "230000", -- 地区编码 "ba": "iPhon
阅读全文
摘要:OLAP(online analytical processing) OLAP是一种软件技术,它使分析人员迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,从各方面观察信息,也就是从不同的维度分析数据,因为OLAP也称为多维分析。 Kylin对接的就是数仓中的dwd层星型模型 或雪花模
阅读全文
摘要:1. sqoop概述 Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数
阅读全文
摘要:|的ascII最大ctrl+shift+t查找类 ctrl+p显示提示 HBase API操作 依赖的jar包 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</arti
阅读全文
摘要:GFS -->hdfsmapreduce >hadoop mrbigtable-->hbase HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 海量存储;列式存储;极易扩展;高并发;稀疏(针对HBase列的灵活性,在列族中,你可以指定任意多的列;稀疏性体现了它的非结构化特点) hb
阅读全文
摘要:1. Azkaban安装部署 https://azkaban.github.io/azkaban/docs/2.5/ 安装Azkaban 1) 在/opt/module/目录下创建azkaban目录 [kris@hadoop101 module]$ mkdir azkaban 2) 解压azkaba
阅读全文
摘要:ctrl+Hnew 它的实现类ctrl+r替换格式化ctrl+alt+l ctrl+fctrl+alt+v 替换 < " < < > > Kafka生产者Java API 创建生产者 不带回调函数的 new producer<String, String>( "主题", 分区int, "
阅读全文
摘要:Oozie的功能模块 workflow 由多个工作单元组成 工作单元之间有依赖关系 MR1->MR2->MR3->result hadoop jar:提交1个MR oozie:监控当前工作单元状态,完成之后自动提交下一个工作单元scheduler crontab:是linux简单调度脚本 定时调度工
阅读全文
摘要:1.kafka Manager 1.上传压缩包kafka-manager-1.3.3.15.zip到集群 2.解压到/opt/module 3.修改配置文件conf/application.conf kafka-manager.zkhosts="kafka-manager-zookeeper:218
阅读全文