BigData_relevant - 随笔分类 - Curedfisher

网络日志流量分析-第二部分.doc

摘要：一、课程计划目录一、课程计划 1 二、模块开发数据仓库设计 3 1．维度建模基本概念 3 2．维度建模三种模式 4 2.1．星型模式 4 2.2．雪花模式 5 2.3．星座模式 6 3．本项目中数据仓库的设计 7 3.1．事实表设计 7 3.2．维度表设计 8 三、模块阅读全文

posted @ 2020-04-08 11:36 Curedfisher 阅读(576) 评论(0) 推荐(0)

网络日志流量分析-第一部分.doc

摘要：一、课程计划目录一、课程计划 1 二、网站流量日志数据分析系统 2 1．点击流数据模型 2 1.1．点击流概念 2 1.2．点击流模型生成 3 2．如何进行网站流量分析 4 2.1．网站流量分析模型举例 5 2.2．流量分析常见分类 8 三、整体技术流程及架构 14 1．数阅读全文

posted @ 2020-04-08 11:34 Curedfisher 阅读(889) 评论(0) 推荐(0)

Azkaban.Sqoop_网站流量日志分析2

摘要：17-网站流量日志分析-数据处理流程 18-网站流量日志分析-数据采集 19-网站流量日志分析-数据预处理 SOH为\001分隔符 20-网站流量日志分析-获取PageView表模型 21-网站流量日志分析-获取Visit表模型 2代表在session中访问了几个页面 22-网站流量日志分析-hiv 阅读全文

posted @ 2020-04-07 17:40 Curedfisher 阅读(224) 评论(0) 推荐(0)

Azkaban.Sqoop_网站流量日志分析1

摘要：15-网站流量日志分析-分析模型 16-网站流量日志分析-分析指标阅读全文

posted @ 2020-04-07 14:56 Curedfisher 阅读(213) 评论(0) 推荐(0)

Azkaban,Sqoop讲义

摘要：Day 07 1. Azkaban介绍 1.1. 为什么需要Azkaban 一个完整的数据分析系统通常都是由大量任务单元组成 shell脚本程序 java程序 mapreduce程序 hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划，需要一个工作流调度阅读全文

posted @ 2020-04-07 14:44 Curedfisher 阅读(451) 评论(0) 推荐(0)

Sqoop(将关系型数据库的数据导入到HDFS)

摘要：10-sqoop入门介绍 11-sqoop安装 cd /export/servers/hadoop‐3.1.1/conf/ cp sqoop‐env‐template.sh sqoop‐env.sh vim sqoop‐env.sh export HADOOP_COMMON_HOME/export/ 阅读全文

posted @ 2020-04-07 06:57 Curedfisher 阅读(599) 评论(0) 推荐(0)

Azkaban.Sqoop

摘要：1-Azkaban介绍 2-Azkaban编译和安装模式 3-Azkaban-solo模式-安装 cd /export/softwares tar ‐zxvf azkaban‐solo‐server‐0.1.0‐SNAPSHOT.tar.gz ‐C ../servers/ cd /export/se 阅读全文

posted @ 2020-04-06 08:46 Curedfisher 阅读(182) 评论(0) 推荐(0)

Flume讲义

摘要：Day 06 Flume 1. Flume 介绍 1.1. 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive 阅读全文

posted @ 2020-04-05 19:25 Curedfisher 阅读(207) 评论(0) 推荐(0)

Flume2-高可用+拦截器

摘要：13-flume高可用-failover-模型分析(搭建一个Flume集群,当一个Flume挂掉之后,其他flume迅速补上) 14-flume高可用-failover-配置文件编写 vim agent.conf #agent1 name agent1.channels = c1 agent1.so 阅读全文

posted @ 2020-04-05 16:56 Curedfisher 阅读(212) 评论(0) 推荐(0)

Flume

摘要：1-flume的概述和运行机制 2-flume案例-网络数据采集-Flume安装 3-flume案例-网络数据采集-Flume的配置 netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c 阅读全文

posted @ 2020-04-04 15:42 Curedfisher 阅读(141) 评论(0) 推荐(0)

Hive讲义二

摘要：Note05 Hive 1. Hive 表操作 1.1. Hive 表创建语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT 阅读全文

posted @ 2020-04-04 11:17 Curedfisher 阅读(216) 评论(0) 推荐(0)

Hive2 分组+排序+函数+自定义函数

摘要：18-Hive的基本操作-分组和多表连接 19-Hive的基本操作-排序 20-Hive的基本操作-内置函数 21-Hive的基本操作-自定义函数 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/ 阅读全文

posted @ 2020-04-04 11:14 Curedfisher 阅读(732) 评论(0) 推荐(0)

Hive讲义一

摘要：Note05 Hive 1. 什么是数仓 1.1. 基本概念英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据阅读全文

posted @ 2020-04-03 14:31 Curedfisher 阅读(223) 评论(0) 推荐(0)

Hive

摘要：1-数据仓库的基本特征 2-数据仓库和数据库的区别 3-数据仓库分层和元数据管理 4-Hive的基本介绍 5-Hive的架构 6-Hive和Hadoop及RDBMS关系 7-Hive的安装-Mysql安装 8-Hive的安装-Hive配置 hive-site.xml <?xml version="1 阅读全文

posted @ 2020-04-02 17:24 Curedfisher 阅读(177) 评论(0) 推荐(0)

MapReduce高级_讲义

摘要：MapReduce任务计数器 org.apache.hadoop.mapreduce.TaskCounter 文件系统计数器 org.apache.hadoop.mapreduce.FileSystemCounter FileInputFormat 计数器 org.apache.hadoop.ma 阅读全文

posted @ 2020-04-01 18:15 Curedfisher 阅读(181) 评论(0) 推荐(0)

MapReduce高级_MapReduce运行机制-Map阶段

摘要：12-MapReduce运行机制-Map阶段 15-MapReduce-Reduce端join操作-步骤分析利用MapReduce来模拟数据中的连表查询 orders.txt 1001,20150710,p0001,21002,20150710,p0002,31002,20150710,p0003 阅读全文

posted @ 2020-04-01 11:49 Curedfisher 阅读(153) 评论(0) 推荐(0)

MapReduce高级

摘要：1-MapReduce-计数器 SortMapper.java package com.mapreduce_sort; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.had 阅读全文

posted @ 2020-03-31 09:51 Curedfisher 阅读(242) 评论(0) 推荐(0)

MapReduce讲义一

摘要：Hadoop Day 03 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可阅读全文

posted @ 2020-03-30 21:04 Curedfisher 阅读(262) 评论(0) 推荐(0)

HDFS页面下载数据文件报错解决

摘要：从HDFS页面下载文件时，报错点击Download之后，地址解析错误问题解决将Linux服务器上的 /etc/hosts文件中的集群信息，添加到本地hosts文件中C:\Windows\System32\drivers\etc\hosts1 重新在HDFS页面上下载数据下载完成。。阅读全文

posted @ 2020-03-30 09:07 Curedfisher 阅读(1334) 评论(0) 推荐(0)

MapReduce(分布式计算)_01

摘要：13-MapReduce排序-流程分析1-MapReduce介绍 2-MapReduce的构思和框架结构 3-MapReduce的编程规范 4-MapReduce案例-wordcount-步骤分析 5-MapReduce案例-wordcount-准备工作 6-MapReduce案例-wordcoun 阅读全文

posted @ 2020-03-27 15:27 Curedfisher 阅读(183) 评论(0) 推荐(0)

Curedfisher

随笔分类 - BigData_relevant

公告