上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: ## Java中的字符集### 1、字符集概述字符集是各国家文字与字符编码对照表。字符可以看成是计算机中展示的图案效果,每个字符集都对每一种图案进行编码,有着一对一的对应关系。因此进行字符输出时,都需要指定使用哪一种字符集作为参考。不同字符集使用不同的字节数和范围来存储相应的字符。常用字符集有ascii、gb2312、gbk、iso8859-1、utf-8、unicode、big5等。### 2、... 阅读全文
posted @ 2018-08-27 20:37 大道至简(老徐) 阅读(1583) 评论(0) 推荐(0) 编辑
摘要: ## 时间复杂度 ### 1、时间频度 时间复杂度通常是衡量算法的优劣的,衡量算法的时间严格来讲是很难衡量的,由于不同的机器性能不用环境都会造成不同的执行时间。算法的执行时间和语句的执行次数成正比,因此通过计算执行测试来推断执行时间。算法中语句执行次数称为语句频度或时间频度,记为T(n),n是问题的规模,T是Time,即时间频度。 ### 2、时间复杂度 n不断变化时,T(n)也在不断变化,为... 阅读全文
posted @ 2018-08-27 20:36 大道至简(老徐) 阅读(1369) 评论(0) 推荐(0) 编辑
摘要: ## Hive建模### 1、介绍Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模,所谓建模,就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。##... 阅读全文
posted @ 2018-08-27 20:34 大道至简(老徐) 阅读(4213) 评论(0) 推荐(0) 编辑
摘要: ## 08、Spark常用RDD变换 ### 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理。同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait中,KV类的RDD可以被隐式转换成PairRDDFunctions类型。其中很多的操作,和传统的SQL语句中的操作是对应的,只是底层换成Spark的MR计算。 ### 8.2 常用... 阅读全文
posted @ 2018-08-27 18:27 大道至简(老徐) 阅读(526) 评论(0) 推荐(0) 编辑
摘要: ## 06、部署Spark程序到集群上运行 ### 6.1 修改程序代码 1. 修改文件加载路径 在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址。所以需要修改代码中文件加载路径为hdfs路径: ```scala ... //指定hdfs路径 sc.textFile("hdfs://mycluster... 阅读全文
posted @ 2018-08-27 18:26 大道至简(老徐) 阅读(350) 评论(0) 推荐(0) 编辑
摘要: ## 05、Spark shell连接到Spark集群执行作业 ### 5.1 Spark shell连接到Spark集群介绍 Spark shell可以连接到Spark集群,spark shell本身也是spark的一个应用,是和Spark集群的一种交互方式。每次action动作的执行,都会对应一个job。 ### 5.2 连接方式指定 ```shell #进入Spark bin目录 $... 阅读全文
posted @ 2018-08-27 18:25 大道至简(老徐) 阅读(304) 评论(0) 推荐(0) 编辑
摘要: ## 04、Spark Standalone集群搭建 ### 4.1 集群概述 独立模式是Spark集群模式之一,需要在多台节点上安装spark软件包,并分别启动master节点和worker节点。master节点是管理节点,负责和各worker节点通信,完成worker的注册与注销。worker节点是任务执行节点,通过worker节点孵化出执行器子进程来执行任务。 ### 4.2 集群规划... 阅读全文
posted @ 2018-08-27 18:24 大道至简(老徐) 阅读(869) 评论(0) 推荐(0) 编辑
摘要: ## 02、体验Spark shell下RDD编程 ### 1、Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集。该类是Spark是核心类成员之一,是贯穿Spark编程的始终。初期阶段,我们可以把RDD看成是Java中的集合就可以了,在后面的章节中会详细讲解RDD的内部结构和工作原理。 ### 2、Spark-shell下... 阅读全文
posted @ 2018-08-27 18:23 大道至简(老徐) 阅读(499) 评论(0) 推荐(0) 编辑
摘要: ## 03、IDEA下Spark API编程 ### 3.1 编程实现Word Count #### 3.1.1 创建Scala模块 #### 3.1.2 添加maven支持,并引入spark依赖 ```xml 4.0.0 com.oldboy myspark 1.0-SNAPSHOT org.apache.spark spa... 阅读全文
posted @ 2018-08-27 18:23 大道至简(老徐) 阅读(233) 评论(0) 推荐(0) 编辑
摘要: ## 01、Spark安装与配置 ### 1、hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common、hdfs、mapreduce和yarn。 ### 2、并发和并行 并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算。 ### 3、Spark 快如闪电集群计算引擎,应用于大... 阅读全文
posted @ 2018-08-27 18:22 大道至简(老徐) 阅读(209) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页