上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页
摘要: 1.spark的缓存级别参照【org.apache.spark.storage.StorageLevel.scala】 new StorageLevel(_useDisk,_useMemory, _useOffHeap,_deserialized,_replication: Int = 1) val 阅读全文
posted @ 2018-08-30 20:04 Coding_Now 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 1.定义:触发Job,调用runJob()方法: 比如:collect、count 2.foreach 说明:将结果返回值执行器节点,而非驱动器 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, comb 阅读全文
posted @ 2018-08-30 20:02 Coding_Now 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 1.mapValues[Pair] def mapValues[U](f: V => U): RDD[(K, U)] 说明:将RDD[(K, V)] --> RDD[(K, U)],对Value做(f: V => U)操作 val a = sc.parallelize(List("dog", "ti 阅读全文
posted @ 2018-08-30 19:58 Coding_Now 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 1.map、flatMap、distinct map说明:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap说明:同Map算子一样,最后将所有元素放到同一集合中; distinct说明:将RDD中 阅读全文
posted @ 2018-08-29 19:53 Coding_Now 阅读(1050) 评论(0) 推荐(0) 编辑
摘要: 一.Spark上下文 1.作用:连接Spark集群,用户创建RDD、累加器和广播。 2.RDD:Resilient Distributed Dataset,弹性式分布式数据集,有4种类型,如下: a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转 阅读全文
posted @ 2018-08-28 19:38 Coding_Now 阅读(1123) 评论(0) 推荐(0) 编辑
摘要: 1.集群遵循主(Master)-从(Worker)机构:在不同的集群管理器模式下,Master和Worker映射的内容有所不同 在Standalone模式下:主【Master守护进程】和从【Worker守护进程】 在on Yarn模式下:主【ResourceManager守护进程】和从【Nodema 阅读全文
posted @ 2018-08-28 19:31 Coding_Now 阅读(1813) 评论(0) 推荐(0) 编辑
摘要: 1.构建独立应用,采用Maven搭建Spark应用程序 a.创建Scala工程(略) b.加载spark-core_2.11依赖库: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif 阅读全文
posted @ 2018-08-28 19:30 Coding_Now 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S 阅读全文
posted @ 2018-08-28 18:43 Coding_Now 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 1.创建数据库 hive>create database myhive; hive>create database if not exists myhive; hive>show databases; hive>show databases like '*t*'; 说明:hive为创建的数据库生成了 阅读全文
posted @ 2018-08-27 09:10 Coding_Now 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1.默认存储格式为:纯文本 stored as textfile; 2.二进制存储的格式 顺序文件,avro文件,parquet文件,rcfile文件,orcfile文件。 3.转存parquet格式 hive>create table hive.stocks_parquet stored as p 阅读全文
posted @ 2018-08-14 13:13 Coding_Now 阅读(3929) 评论(0) 推荐(1) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页