穆梓先生 - 博客园

2019年4月2日

摘要： Scala介绍 1.Spark中使用的是Sacla2.10。 2.Scala官网6个特征。 1).Java和scala可以混编 2).类型推测(自动推测类型) 3).并发和分布式（Actor） 4).特质，特征(类似java中interfaces 和 abstract结合) 5).模式匹配（类似java switch） 6).高阶函数 Sca... 阅读全文

posted @ 2019-04-02 09:24 穆梓先生阅读(503) 评论(0) 推荐(0) 编辑

大数据技术之HBase

摘要：第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会，程序... 阅读全文

posted @ 2019-04-02 09:23 穆梓先生阅读(1899) 评论(0) 推荐(0) 编辑

大数据技术之Oozie

摘要：第1章 Oozie简介 Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章 Oozie的功能模块介绍 2.1 模块 1) Workflow 顺序... 阅读全文

posted @ 2019-04-02 09:21 穆梓先生阅读(500) 评论(0) 推荐(0) 编辑

大数据技术之Sqoop

摘要：第1章 Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块... 阅读全文

posted @ 2019-04-02 09:21 穆梓先生阅读(261) 评论(0) 推荐(0) 编辑

大数据技术之Kafka

摘要： Kafka概述 1.1 消息队列（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于... 阅读全文

posted @ 2019-04-02 09:20 穆梓先生阅读(300) 评论(0) 推荐(0) 编辑

大数据技术之Flume

摘要：第1章概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 1.2 Flume组成架构 Flume组成架构如图1-1，图1-2所示：图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件。 1.2... 阅读全文

posted @ 2019-04-02 09:19 穆梓先生阅读(1680) 评论(0) 推荐(0) 编辑

大数据技术之HA 高可用

摘要： HDFS HA高可用 1.1 HA概述 1）所谓HA（High Available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 3）Hadoop2.0之前，在HDFS集群中NameNode 阅读全文

posted @ 2019-04-02 09:11 穆梓先生阅读(2987) 评论(0) 推荐(0) 编辑

大数据技术之Zookeeper

摘要：第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4 应用场景提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.5 下载地址 1．官网首页： https:/... 阅读全文

posted @ 2019-04-02 09:06 穆梓先生阅读(913) 评论(0) 推荐(0) 编辑

大数据技术之Hive

摘要：第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行... 阅读全文

posted @ 2019-04-02 09:04 穆梓先生阅读(850) 评论(0) 推荐(2) 编辑

大数据技术之Hadoop（MapReduce）

摘要：第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想，如图4-1所示。图4-1 MapReduce核心编程思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完... 阅读全文

posted @ 2019-04-02 09:03 穆梓先生阅读(1210) 评论(0) 推荐(0) 编辑

十八子的python之旅

公告