2019 年 4月 2 日随笔档案 - 穆梓先生

2019年4月2日

摘要： SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库... 阅读全文

posted @ 2019-04-02 09:30 穆梓先生阅读(262) 评论(0) 推荐(0) 编辑

Spark day05

摘要： Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shark上... 阅读全文

posted @ 2019-04-02 09:29 穆梓先生阅读(226) 评论(0) 推荐(0) 编辑

什么是PV UV

摘要： PV是网站分析的一个术语，用以衡量网站用户访问的网页的数量。对于广告主，PV值可预期它可以带来多少广告收入。一般来说，PV与来访者的数量成正比，但是PV并不直接决定页面的真实来访者数量，如同一个来访者通过不断的刷新页面，也可以制造出非常高的PV。 1、什么是PV值 PV（page view）即页面浏阅读全文

posted @ 2019-04-02 09:28 穆梓先生阅读(3108) 评论(0) 推荐(0) 编辑

SPARK Day04

摘要：广播变量和累加器广播变量广播变量理解图广播变量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new SparkContext(conf) val ... 阅读全文

posted @ 2019-04-02 09:27 穆梓先生阅读(200) 评论(0) 推荐(0) 编辑

Spark day03

摘要：补充算子 transformations mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值。 repartition 增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle） coalesce coalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。 true为产生shuffle，fa... 阅读全文

posted @ 2019-04-02 09:26 穆梓先生阅读(186) 评论(0) 推荐(0) 编辑

Spark day02

摘要： Standalone模式两种提交任务方式 Standalone-client提交任务方式提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000或者 ./spark-su... 阅读全文

posted @ 2019-04-02 09:26 穆梓先生阅读(201) 评论(0) 推荐(0) 编辑

Spark-day01

摘要： Spark初始什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要... 阅读全文

posted @ 2019-04-02 09:25 穆梓先生阅读(288) 评论(0) 推荐(0) 编辑

Scala

摘要： Scala介绍 1.Spark中使用的是Sacla2.10。 2.Scala官网6个特征。 1).Java和scala可以混编 2).类型推测(自动推测类型) 3).并发和分布式（Actor） 4).特质，特征(类似java中interfaces 和 abstract结合) 5).模式匹配（类似java switch） 6).高阶函数 Sca... 阅读全文

posted @ 2019-04-02 09:24 穆梓先生阅读(503) 评论(0) 推荐(0) 编辑

大数据技术之HBase

摘要：第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会，程序... 阅读全文

posted @ 2019-04-02 09:23 穆梓先生阅读(1899) 评论(0) 推荐(0) 编辑

大数据技术之Sqoop

摘要：第1章 Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块... 阅读全文

posted @ 2019-04-02 09:21 穆梓先生阅读(261) 评论(0) 推荐(0) 编辑

大数据技术之Oozie

摘要：第1章 Oozie简介 Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章 Oozie的功能模块介绍 2.1 模块 1) Workflow 顺序... 阅读全文

posted @ 2019-04-02 09:21 穆梓先生阅读(500) 评论(0) 推荐(0) 编辑

大数据技术之Kafka

摘要： Kafka概述 1.1 消息队列（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于... 阅读全文

posted @ 2019-04-02 09:20 穆梓先生阅读(300) 评论(0) 推荐(0) 编辑

大数据技术之Flume

摘要：第1章概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 1.2 Flume组成架构 Flume组成架构如图1-1，图1-2所示：图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件。 1.2... 阅读全文

posted @ 2019-04-02 09:19 穆梓先生阅读(1680) 评论(0) 推荐(0) 编辑

大数据技术之HA 高可用

摘要： HDFS HA高可用 1.1 HA概述 1）所谓HA（High Available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 3）Hadoop2.0之前，在HDFS集群中NameNode 阅读全文

posted @ 2019-04-02 09:11 穆梓先生阅读(2987) 评论(0) 推荐(0) 编辑

大数据技术之Zookeeper

摘要：第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4 应用场景提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.5 下载地址 1．官网首页： https:/... 阅读全文

posted @ 2019-04-02 09:06 穆梓先生阅读(913) 评论(0) 推荐(0) 编辑

大数据技术之Hive

摘要：第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行... 阅读全文

posted @ 2019-04-02 09:04 穆梓先生阅读(850) 评论(0) 推荐(2) 编辑

大数据技术之Hadoop（MapReduce）

摘要：第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想，如图4-1所示。图4-1 MapReduce核心编程思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完... 阅读全文

posted @ 2019-04-02 09:03 穆梓先生阅读(1210) 评论(0) 推荐(0) 编辑

大数据技术之Hadoop（HDFS）

摘要：第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小（面试重点）第2章 HDFS的Shell操作（开发重点） 1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2．命令大全 ... 阅读全文

posted @ 2019-04-02 09:01 穆梓先生阅读(1148) 评论(0) 推荐(0) 编辑

大数据技术之Hadoop入门

摘要：第1章大数据概论 1.1 大数据概念大数据概念如图2-1 所示。图2-1 大数据概念 1.2 大数据特点（4V）大数据特点如图2-2，2-3，2-4，2-5所示图2-2 大数据特点之大量图2-3 大数据特点之高速图2-4 大数据特点之多样图2-5 大数据特点之低价值密度 1.3 大数据应用场景大数据应... 阅读全文

posted @ 2019-04-02 08:59 穆梓先生阅读(3542) 评论(0) 推荐(1) 编辑

用word2013 把word 文档发送到博客园

摘要： Word绑定博客园账号 Step1. 打开Word2013，依次点击"文件" -> "共享"-> "发送至播客"。 Step2. 进入博客页后，依次点击"管理账户" ->"新建"-> 选择"其他"-> 点击"下一步"，如图。 Step3. 在弹出的新建账户页面输入 http://www.cnblog 阅读全文

posted @ 2019-04-02 08:56 穆梓先生阅读(215) 评论(0) 推荐(0) 编辑

十八子的python之旅

公告