2020年5月30日

摘要：第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到阅读全文

posted @ 2020-05-30 23:22 大码王阅读(652) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（1）spark基础入门

摘要：第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化阅读全文

posted @ 2020-05-30 20:50 大码王阅读(768) 评论(0) 推荐(0) 编辑

hadoop入门到实战（18）优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

摘要：一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d 阅读全文

posted @ 2020-05-30 20:21 大码王阅读(239) 评论(0) 推荐(0) 编辑

hadoop入门到实战（17）Oozie从入门到实战

摘要：第1章 Oozie 的简介 Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给 Apache，提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，阅读全文

posted @ 2020-05-30 20:17 大码王阅读(435) 评论(0) 推荐(0) 编辑

hadoop入门到实战（16）azkaban从入门到实战

摘要：一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行阅读全文

posted @ 2020-05-30 19:09 大码王阅读(348) 评论(0) 推荐(0) 编辑

hadoop入门到实战（15）Sqoop从入门到实战

摘要：第1章 Sqoop 简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中阅读全文

posted @ 2020-05-30 19:07 大码王阅读(684) 评论(0) 推荐(0) 编辑

hadoop入门到实战（14）Kafka从入门到实战

摘要：第1章 Kafka概述 1.1 消息队列 1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是阅读全文

posted @ 2020-05-30 19:04 大码王阅读(877) 评论(0) 推荐(0) 编辑

hadoop入门到实战（13）Flume从入门到实战

摘要：第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。在2009年Flume被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flum 阅读全文

posted @ 2020-05-30 18:58 大码王阅读(976) 评论(0) 推荐(0) 编辑

hadoop入门到实战（12）hive从入门到实战六

摘要：一、知识梳理 1.1、背景表结构在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有 3 个字段，分别为 personId 标识某一个人，company 标识一家公司名称，money 标识该公司每年盈利收入（单位：万元人民币）建表并导入数据： create 阅读全文

posted @ 2020-05-30 18:50 大码王阅读(345) 评论(0) 推荐(0) 编辑

hadoop入门到实战（11）hive从入门到实战五

摘要：第10章 Hive实战之谷粒影音 10.1 需求描述统计硅谷影音视频网站的常规指标，各种TopN指标：统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的阅读全文

posted @ 2020-05-30 18:46 大码王阅读(381) 评论(0) 推荐(0) 编辑

hadoop入门到实战（10）hive从入门到实战四

摘要：第8章压缩和存储（Hive高级） 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。注意：采用root角色编译，减少文件夹权限出现问题。2、jar包准备(ha 阅读全文

posted @ 2020-05-30 18:44 大码王阅读(366) 评论(0) 推荐(0) 编辑

hadoop入门到实战（9）hive从入门到实战三

摘要：第6章查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法： [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On 阅读全文

posted @ 2020-05-30 18:42 大码王阅读(502) 评论(0) 推荐(0) 编辑

hadoop入门到实战（8）hive从入门到实战二

摘要：第4章 DDL数据定义 4.1 创建数据库 1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2）避免要创建的数据库已经存在错误，增加 if not exist 阅读全文

posted @ 2020-05-30 18:39 大码王阅读(368) 评论(0) 推荐(0) 编辑

hadoop入门到实战（7）hive从入门到实战一

摘要：第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计（分析数据的框架）。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序。 1）Hive 阅读全文

posted @ 2020-05-30 18:37 大码王阅读(638) 评论(0) 推荐(0) 编辑

公告