随笔分类 - ##云计算与大数据
摘要:HDFS运维—命令注释 1 实验背景 HDFS是大数据其他组件的基础,Hive的数据存储在HDFS中,Mapreduce、Spark 等计算数据也存储在HDFS 中,HBase 的 region 也是存储在HDFS 中。在HDFS shell 客户端我们可以实现多种操作,如上传、下载、删除数据,文件
阅读全文
摘要:FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景。 技能需求 扎实的编程基础 Java/Scala/python/SQL/shell常见命令 掌握FusionInsight 熟悉业务开发 大数据应用开发流程 业务分析和方案设计
阅读全文
摘要:Oozie应用开发 要求: Oozie简介 Oozie应用场景Oozie是一个工作流调度引擎,对各种类型的Hadoop作业进行编排与调度。
阅读全文
摘要:Flume应用开发 要求: Flume应用场景Flume的核心是把数据从数据源收集过来,在送到目的地。为了保证输送一定成功,发送到目的地之前,会先缓存数据,待数据真正的到达目的地后,删除自己缓存的数据。Flume采用流式方法采集和传输数据,程序配置好后,不需要外部条件触发下,一直监控数据源,源源不断
阅读全文
摘要:Streaming应用开发 Streaming的定义 Streaming基于开源Storm,是一个分布式、实时计算框架。Streaming在开源Storm的基础上增加了持续查询语言CQL、增强了安全性和可靠性。 事件驱动 连续查询 数据不存储、先计算 实时响应,低延迟 CQL(Continuous
阅读全文
摘要:Redis应用开发 要求: Redis简介 Redis是一个基于网络的,高性能key-value内存数据库 Redis根memcached类似,不过数据可持久化,而且支持的数据类型很丰富。支持在服务端计算集合的并、交和补集等,还支持多种排序功能。 Redis使用场景有如下几个特点: Redis应用场
阅读全文
摘要:SparkStreaming概述 SparkStreaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。SparkStreaming原理 SparkStreaming数据源 可靠性(二次开发) SparkStreaming代码流程常见业务代码逻辑
阅读全文
摘要:Spark应用开发 要求: 了解Spark基本原理 搭建Spark开发环境 开发Spark应用程序 调试运行Spark应用程序 YARN资源调度,可以和Hadoop集群无缝对接 Spark适用场景 大多数现有集群计算框架如MapReduce等基于从稳定存储(文件系统)到稳定存储的非循环数据流,数据重
阅读全文
摘要:Kafka应用开发 了解Kafka应用开发适用场景 熟悉Kafka应用开发流程 熟悉并使用Kafka常用API 进行Kafka应用开发 Kafka的定义 Kafka是一个高吞吐、分布式、基于发布订阅的消息系统Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 Kafk
阅读全文
摘要:sorl应用开发 要求: Solr简介 Solr概念体系-总述常见术语: Config Set:Solr Core提供一组配置文件 , Core:即Solr Core , Shard:Collection的逻辑分片 Replice:Shard下的实际存储索引的一个副本,与Core对应 Leader:
阅读全文
摘要:Hive应用开发 了解Hive的基本架构原理 掌握JDBC客户端开发流程 了解ODBC客户端的开发流程 了解python客户端的开发流程 了解Hcatalog/webHcat开发接口 掌握Hive开发规则 1. 了解Hive的基本架构原理 守护进程: HiveServer(Thrift/Compil
阅读全文
摘要:MapReduce 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处理的计算模型、框架和平台,其资源调度由Yarn完成,任务资源隐含了以下三层含义: 1)MapReduce是 一个基于集群的高性能并行计算平台(cluster Infrastructure)。 2)Map
阅读全文
摘要:HBase应用开发 HBase的定义 HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统。 适合于存储大表数据,可以达到实时级别。 利用Hadoop HDFS 作为其文件存储系统,提供实时的读写的数据库系统。 利用ZooKeeper作为协同服务。 HBase架构 HBase的适用场景 海
阅读全文
摘要:HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述 高容错性 高吞吐量 大文件存储 HDFS架构包含三部分 HDFS数据写入流程 HDFS应用开发方式 HDFS Client Java/shell/Web UI Kerbors控制 HDFSJav
阅读全文
摘要:FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景。 技能需求 扎实的编程基础 Java/Scala/python/SQL/shell常见命令 掌握FusionInsight 熟悉业务开发 大数据应用开发流程 业务分析和方案设计
阅读全文
摘要:大数据学习路线 或许我们昨天还在畅想着未来,可是不知不觉,那个被我们畅想的未来已经悄然降临。不断的改变我们身边的方方面面。 我们必须跟上时代,才能不被时代所抛弃。 新时代人工智能的出现,让人类担心是否会被替代,我觉得大家大可不用担心。学习是我们人类天赋,只要你肯学习,就不会被取代。 当然我们也不能盲
阅读全文
摘要:大数据时代 大数据的应用领域 大数据时代企业所面临的机遇和挑战 基于华为大数据解决方案 1.各国都将大数据作为国家战略 全球各主要经济体都已将数据开放作为国家战略,促进未来经济发展。中国在顶层设计 上已经开始布局大数据产业r 2.中国实施国家大数据战略 实施国家大数据战略 加快建设数字中国 2017
阅读全文