11 2020 档案
摘要:今日内容: 1) 分桶表的相关优化 -- 理解2) 建模分层操作 -- 需要操作3) 全量流程的统计分析: -- 需求操作 (尝试自己实现) 数据的采集, 数据的清洗转换, 数据维度退化, 数据的统计分析4) 增量流程的: 如何对拉链表实现增量处理 -- 理解 1.意向客户主题看板_需求说明: 需求
阅读全文
摘要:今日内容:1) 分桶表的相关优化 -- 理解2) 建模分层操作 -- 需要操作3) 全量流程的统计分析: -- 需求操作 (尝试自己实现) 数据的采集, 数据的清洗转换, 数据维度退化, 数据的统计分析4) 增量流程的: 如何对拉链表实现增量处理 -- 理解 1.意向客户主题看板_需求说明: 需求一
阅读全文
摘要:create_databaseAndTable.sql -- 1 建立ODS层库:CREATE DATABASE IF NOT EXISTS `itcast_ods`; -- 2 在ODS层库中, 构建两张ODS的事实表-- 2.1: 构建访问咨询表--写入时压缩生效 (必须开启压缩生效, 否则后续
阅读全文
摘要:今日内容:1) Git基本介绍2) Git安装操作3) 如何使用Git管理版本库操作4) 远程仓库: 码云5) 分支管理6) 在IDEA中如何git 一上午的时间7) 主题一: 访问咨询主题看板 7.1: 需求说明 : 将调研需求 转换为 开发需求 -- 相当重要 7.2: 建模分析 非常重要 7.
阅读全文
摘要:1)首先下载Git --> 传送门 https://git-scm.com/downloads Git官网 可以直接下载最新版的 (2)安装git 双击运行安装包,一直next就行了 二 :注册码云账号 滴 ,传送门 :https://gitee.com/signup 一般用邮箱注册,这里也不多讲
阅读全文
摘要:>.ClouderaManager功能 1.1>.管理监控集群主机(主要监控硬件和软件的信息); 1.2>.同一管理配置(主要是针对服务,比如hdfs,hbase等等); 1.3>.管理维护Hadoop平台系统; 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2>
阅读全文
摘要:问题1 错误提示:cloudera-scm-agent 已死,但 pid 文件仍存解决办法: [root@node1 ~]# cd /var/run/ [root@node1 run]# rm -rf cloudera-scm-agent.pid 1 2 问题2 错误提示: error: No so
阅读全文
摘要:sqoop数据迁移 1. 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的HDFS、HIVE中导出数据到关系数据库mysq
阅读全文
摘要:数仓工具 1. 学习目标 能够使用Hue操作HDFS 能够使用Hue操作Hive 理解为什么选择Sqoop 理解Sqoop1和Sqoop2的区别 理解Sqoop抽取数据的两种方式 能够使用Sqoop导入完整数据到HDFS 能够使用Sqoop导入完整数据到Hive 能够使用Sqoop导入条件数据到HD
阅读全文
摘要:项目介绍和需求管理 1. 学习目标 了解知行教育大数据的项目背景 了解知行教育大数据的看板划分 了解项目技术架构 了解ClouderaManager的应用场景 掌握ClouderaManager架构 能够使用Vmware虚拟机环境 2. 项目简介 知行教育大数据分析平台,突出的是“真”,此项目是传智
阅读全文
摘要:出现以下错误:org.apache.haddop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby:解决办法:h
阅读全文
摘要:在命令状态下对当前行用== (连按=两次), 或对多行用n==(n是自然数)表示自动缩进从当前行起的下面n行。你可以试试把代码缩进任意打乱再用n==排版,相当于一般IDE里的code format。使用gg=G可对整篇代码进行排版。 vim 选择文本,删除,复制,粘贴 文本的选择,对于编辑器来说,是
阅读全文
摘要:阅读目录 开关机命令 ifconfig 查看ip地址 用户相关 权限相关 特殊字符 重定向相关 iptables防火墙 1. ls 命令 2、cd 切换 3、pwd 查看当前工作目录路径 4、mkdir 创建文件夹 5、rm 删除文件 7、mv 移动/修改文件名 8、cp 复制 9、cat 显示文件
阅读全文
摘要:今日内容:1) 综合案例: 需求一 和 需求二: 需求一: 统计求和需求 排序需求 需求二: 求共同好友2) MapReduce性能优化策略 简单了解3) yarn基本介绍4) yarn的基本架构介绍及其相关的组件说明 --理解即可5) yarn的运行流程 -- 清楚 掌握 最好记忆住6) yarn
阅读全文
摘要:爬虫综合案例 一、网络爬虫基础 1. 网络爬虫介绍 随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方
阅读全文
摘要:爬虫综合案例(jd爬虫) 学习了HttpClient和Jsoup,就掌握了如何抓取数据和如何解析数据,接下来,我们完成我们的项目案例,把京东的手机数据抓取下来 一、需求分析 需求说明: 本次爬取jd商城中所有手机商品数据:主要包含 商品的名称 商品价格 商品的id 商品图片 商品的详情的地址 通过点
阅读全文
摘要:Linux操作系统 1. 计算机入门知识介绍 1.1. 计算机原理 现代计算机大部分都是基于冯.诺依曼结构,该结构的核心思想是冯将程序和数据都存放在计算机中,按存储器的存储程序首地址执行程序的第一条指令,然后进行数据的处理计算。 计算机应包括运算器、储存器、控制器、输入和输出设备五大基本部件。 计算
阅读全文
摘要:今日内容:1) HDFS基本的概念 架构中相关的机制 -- 理解2) HDFS的shell命令的操作: --唯一的操作 3) HDFS的基本原理: 4) hdfs的工作机制: 记忆 (能够拿自己的话出来) hdfs的写数据的流程 hdfs的读数据的流程5) hdfs的元数据辅助管理机制 记忆 1)
阅读全文
摘要:第一章 Flink简介 1.1 初识Flink Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化
阅读全文
摘要:第1章 项目需求及架构设计1.1 项目需求分析 一、数据采集平台搭建 二、Kafka、Zookeeper中间件准备 三、下游Spark Streaming对接Kafka接收数据,实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。 1.2 项目框架1.2.1 技术选型 一、数据存储
阅读全文
摘要:第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理。数据可以从许多来源(如Kafka,Flume,Kinesis,或TCP套接字)中获取,并可以使用高级函数进行处理,处理完后的数据可以推送到文件系统,数
阅读全文
摘要:第1章 数据仓库概念 数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。 第2章 项目需求及架构设计 2.1 项目需求分析 一、数据采集平台搭建 二、实现数
阅读全文
摘要:第1章 数仓分层概念 1.1 为什么要分层 1.2 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 详见:尚硅谷大数据技术之Hive 2.1 Hive&MySQL安装 2.1.
阅读全文
摘要:Table API 和 Flink SQL 第一章 整体介绍 1.1 什么是 Table API 和 Flink SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。 目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java
阅读全文
摘要:尚硅谷大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析,得到感兴趣的商业指标并增强对风险的控制。 电商用户行为数据多样,整体可以分为用户行为习惯数据
阅读全文
摘要:第一章 实时需求概览 1 实时需求与离线需求的比较 离线需求,一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。 实时需求,主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 2 需求明细 2.1当
阅读全文
摘要:第一章 ·采集数据 1 框架流程 2 canal 入门 2.1 什么是 canal 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量
阅读全文
摘要:ElasticSearch 版本:V 1.2.2 一 elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的
阅读全文
摘要:Clickhouse 版本:V 1.0.5 第一章 Clickhouse简介 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 第二章 Clickhouse的特
阅读全文
摘要:第一章 ADS 聚合层 ads层,主要是根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 1 需求 热门商品统计(作业) 热门品类统计(作业) 热门品牌统计 交易用户性别对比(作业) 交易用户年龄段对比(作业) 交易额省市分布(作业) 2 分析 以热门商品统计为例
阅读全文
摘要:第一章 双流合并 除了事实表与维表进行合并形成宽表,还需要事实表与事实表进行合并形成更大的宽表。 1 双流合并的问题 由于两个流的数据是独立保存,独立消费,很有可能同一业务的数据,分布在不同的批次。因为join算子只join同一批次的数据。如果只用简单的join流方式,会丢失掉不同批次的数据。 2
阅读全文
摘要:第一章 实时处理模块 1 模块搭建 添加scala框架 2 代码思路 l 消费kafka中的数据。 l 利用redis过滤当日已经计入的日活设备。 l 把每批次新增的当日日活信息保存到ES中。 l 从ES中查询出数据,发布成数据接口,通可视化化工程调用。 3 代码开发之消费Kafka 3.1 配置
阅读全文
摘要:第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史 1.3 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了
阅读全文
摘要:第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。
阅读全文
摘要:第1章 Spark Streaming概述 1.1 离线和实时概念 数据处理的延迟 离线计算 就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式; 实时计算 输
阅读全文
摘要:1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问
阅读全文
摘要:第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spa
阅读全文
摘要:第1章 Scala入门 1.1 概述 1.1.1 为什么学习Scala 1.1.2 Scala发展历史 1.1.3 Scala和Java关系 一般来说,学Scala的人,都会Java,而Scala是基于Java的,因此我们需要将Scala和Java以及JVM之间的关系搞清楚,否则学习Scala你会蒙
阅读全文
摘要:一、Linux 1、写出常用的5个高级命令 top/ps iotop tail tar df -h find netstat crontab 2、查看端口号、查看进程、查看磁盘使用情况 、配置定时器 netstat ps -aux df -h crontab 二、Shell 1、shell的工具(知
阅读全文
摘要:第1章 Zabbix入门 1.1 Zabbix概述 Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。 1.2
阅读全文
摘要:大数据环境统一与zookeeper 一、集群环境准备 1. 三台虚拟机创建 第一种方式:通过iso镜像文件来进行安装(不推荐) 第二种方式:直接复制安装好的虚拟机文件(强烈推荐) 在课程资料里边已经提供了一个安装好的虚拟机node1(注意,为了大家以后环境的统一,尽量使用课程资料中提供的已经安装好的
阅读全文
摘要:第一章 Linux高级命令和Shell编程 1. Linux高级命令 该章节的所有操作都在/export/data/shell目录进行,请提前创建该目录. mkdir -p /export/data/shell/ 1.1. 重定向命令 1、重定向> Linux 允许将命令执行结果重定向到一个文件,本
阅读全文
摘要:一、移动光标 h,j,k,l 上,下,左,右ctrl-e 移动页面ctrl-f 上翻一页ctrl-b 下翻一页ctrl-u 上翻半页ctrl-d 下翻半页w 跳到下一个字首,按标点或单词分割W 跳到下一个字首,长跳,如end-of-line被认为是一个字e 跳到下一个字尾E 跳到下一个字尾,长跳b
阅读全文
摘要:第1章 Zabbix入门 1.1 Zabbix概述 Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。 1.2
阅读全文
摘要:第1章 电商业务简介 1.1 电商业务流程 1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组
阅读全文
摘要:#agent1(hadoop102) netcatsource --> memorychannel --> arvosinka1.sources = r1a1.channels = c1a1.sinks = k1 a1.sources.r1.type = netcata1.sources.r1.bi
阅读全文
摘要:第1章 数仓分层1.1 为什么要分层 1.2 数据集市与数据仓库概念 1.3 数仓命名规范1.3.1 表命名ODS层命名为ods_表名DWD层命名为dwd_dim/fact_表名DWS层命名为dws_表名 DWT层命名为dwt_购物车ADS层命名为ads_表名临时表命名为xxx_tmp
阅读全文
摘要:第1章 Presto 1.1 Presto简介 1.1.1 Presto概念 1.1.2 Presto架构 1.1.3 Presto优缺点 1.1.4 Presto、Impala性能比较 https://blog.csdn.net/u012551524/article/details/7912453
阅读全文
摘要:#agent1(hadoop102)a1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2 a1.sources.r1.type = execa1.sources.r1.command = tail -F /opt/module/flume/demo/1
阅读全文
摘要:查看所有topic: kafka-topics.sh --zookeeper hadoop102:2181 --list 查看具体的topic : kafka-topics.sh --zookeeper hadoop102:2181 --describe --topic first 创建topic
阅读全文
摘要:a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources.r1.type=TAILDIR#该文件中记录了source读取到的内容的位置#注意:一旦该文件丢失那么source后从该文件的开始位置重新读a1.sources.r1.positionFile = /
阅读全文
摘要:#a1是agent的名字#定义的source,channel,sink的个数可以是多个,中间用空格隔开#定义的名字可以随便起建议大家和官网的案例一致,方便后续查阅#定义sourcea1.sources = r1#定义channela1.channels = c1#定义sinka1.sinks = k
阅读全文
摘要:一 Flume版本 Flume大的版本分为0.9之前和0.9之后 0.9之前 : flume og 0.9之后 : flume ng 二 flume运行agent的命令 flume-ng --name agent的名字 --conf 配置文件的目录 --conf-file agent的配置文件(自己
阅读全文
摘要:a1.sources = r1a1.channels = c1a1.sinks = k1 a1.sources.r1.type = netcata1.sources.r1.bind = hadoop102a1.sources.r1.port = 44444#设置一个拦截器(用来向headers中添加
阅读全文
摘要:一 Flume版本 Flume大的版本分为0.9之前和0.9之后 0.9之前 : flume og 0.9之后 : flume ng 二 flume运行agent的命令 1.第一种方式 flume-ng agent --name agent的名字 --conf 配置文件的目录 --conf-file
阅读全文
摘要:#1.自定义agent的名字source,channel,sink组件a2.sources = r2a2.channels = c2a2.sinks = k2 #2.设置source的类型和配置a2.sources.r2.type = execa2.sources.r2.command = tail
阅读全文
摘要:#1.自定义agent的名字source,channel,sink组件a2.sources = r2a2.channels = c2a2.sinks = k2 #2.设置source的类型和配置a2.sources.r2.type = execa2.sources.r2.command = tail
阅读全文
摘要:#a1是agent的名字#定义的source,channel,sink的个数可以是多个,中间用空格隔开#定义的名字可以随便起建议大家和官网的案例一致,方便后续查阅#定义sourcea1.sources = r1#定义channela1.channels = c1#定义sinka1.sinks = k
阅读全文
摘要:第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4 应用场景 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.5 下载地址 1)
阅读全文
摘要:第1章 Kafka概述 1.1 消息队列(Message Queue) 1.1.1 传统消息队列的应用场景 1.1.2 消息队列的两种模式 1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。 消息被消
阅读全文
摘要:第 1 章 HBase简介 1.1 HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 1.2 HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个m
阅读全文
摘要:第1章 Hadoop数据压缩 1.1 概述 1.2 MR支持的压缩编码 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改 Gzip 是,直接使用 DEFL
阅读全文
摘要:第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1
阅读全文
摘要:1.1 大数据概念 1.2 大数据特点(4V) 1.3 大数据应用场景 1.4 大数据发展前景 1.5 大数据部门业务流程分析 1.6 大数据部门组织结构(重点) 第2章 从Hadoop框架讨论大数据生态2.1 Hadoop是什么 2.2 Hadoop发展历史(了解) 2.3 Hadoop三大发行版
阅读全文
摘要:第1章 Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 1.2 Flume基础架构 Flume组成架构如下图所示。 1.2.1 Agent Agent是一个JVM进程,它以事
阅读全文
摘要:第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存
阅读全文