随笔分类 - BigData_relevant
大数据相关问题
摘要:一、 课程计划 目录 一、 课程计划 1 二、 模块开发 数据仓库设计 3 1. 维度建模基本概念 3 2. 维度建模三种模式 4 2.1. 星型模式 4 2.2. 雪花模式 5 2.3. 星座模式 6 3. 本项目中数据仓库的设计 7 3.1. 事实表设计 7 3.2. 维度表设计 8 三、 模块
阅读全文
摘要:一、 课程计划 目录 一、 课程计划 1 二、 网站流量日志数据分析系统 2 1. 点击流数据模型 2 1.1. 点击流概念 2 1.2. 点击流模型生成 3 2. 如何进行网站流量分析 4 2.1. 网站流量分析模型举例 5 2.2. 流量分析常见分类 8 三、 整体技术流程及架构 14 1. 数
阅读全文
摘要:17-网站流量日志分析-数据处理流程 18-网站流量日志分析-数据采集 19-网站流量日志分析-数据预处理 SOH为\001分隔符 20-网站流量日志分析-获取PageView表模型 21-网站流量日志分析-获取Visit表模型 2代表在session中访问了几个页面 22-网站流量日志分析-hiv
阅读全文
摘要:15-网站流量日志分析-分析模型 16-网站流量日志分析-分析指标
阅读全文
摘要:Day 07 1. Azkaban介绍 1.1. 为什么需要Azkaban 一个完整的数据分析系统通常都是由大量任务单元组成 shell脚本程序 java程序 mapreduce程序 hive脚本等 各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度
阅读全文
摘要:10-sqoop入门介绍 11-sqoop安装 cd /export/servers/hadoop‐3.1.1/conf/ cp sqoop‐env‐template.sh sqoop‐env.sh vim sqoop‐env.sh export HADOOP_COMMON_HOME/export/
阅读全文
摘要:1-Azkaban介绍 2-Azkaban编译和安装模式 3-Azkaban-solo模式-安装 cd /export/softwares tar ‐zxvf azkaban‐solo‐server‐0.1.0‐SNAPSHOT.tar.gz ‐C ../servers/ cd /export/se
阅读全文
摘要:Day 06 Flume 1. Flume 介绍 1.1. 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive
阅读全文
摘要:13-flume高可用-failover-模型分析(搭建一个Flume集群,当一个Flume挂掉之后,其他flume迅速补上) 14-flume高可用-failover-配置文件编写 vim agent.conf #agent1 name agent1.channels = c1 agent1.so
阅读全文
摘要:1-flume的概述和运行机制 2-flume案例-网络数据采集-Flume安装 3-flume案例-网络数据采集-Flume的配置 netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c
阅读全文
摘要:Note05 Hive 1. Hive 表操作 1.1. Hive 表创建语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT
阅读全文
摘要:18-Hive的基本操作-分组和多表连接 19-Hive的基本操作-排序 20-Hive的基本操作-内置函数 21-Hive的基本操作-自定义函数 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/
阅读全文
摘要:Note05 Hive 1. 什么是数仓 1.1. 基本概念 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环 境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据
阅读全文
摘要:1-数据仓库的基本特征 2-数据仓库和数据库的区别 3-数据仓库分层和元数据管理 4-Hive的基本介绍 5-Hive的架构 6-Hive和Hadoop及RDBMS关系 7-Hive的安装-Mysql安装 8-Hive的安装-Hive配置 hive-site.xml <?xml version="1
阅读全文
摘要:MapReduce任务 计数器 org.apache.hadoop.mapreduce.TaskCounter 文件系统计数器 org.apache.hadoop.mapreduce.FileSystemCounter FileInputFormat 计数器 org.apache.hadoop.ma
阅读全文
摘要:12-MapReduce运行机制-Map阶段 15-MapReduce-Reduce端join操作-步骤分析 利用MapReduce来模拟数据中的连表查询 orders.txt 1001,20150710,p0001,21002,20150710,p0002,31002,20150710,p0003
阅读全文
摘要:1-MapReduce-计数器 SortMapper.java package com.mapreduce_sort; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.had
阅读全文
摘要:Hadoop Day 03 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思 想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可
阅读全文
摘要:从HDFS页面下载文件时,报错 点击Download之后,地址解析错误 问题解决将Linux服务器上的 /etc/hosts文件中的集群信息,添加到本地hosts文件中C:\Windows\System32\drivers\etc\hosts1 重新在HDFS页面上下载数据 下载完成。。
阅读全文
摘要:13-MapReduce排序-流程分析1-MapReduce介绍 2-MapReduce的构思和框架结构 3-MapReduce的编程规范 4-MapReduce案例-wordcount-步骤分析 5-MapReduce案例-wordcount-准备工作 6-MapReduce案例-wordcoun
阅读全文