spark - 随笔分类 - 打杂滴

Graphx二度关系

摘要：import org.apache.spark.graphx._import org.apache.spark.rdd.RDDval vertexArray = Array( (1L, ("Alice", 28)), (2L, ("Bob", 27)), (3L, ("Charlie", 65)), 阅读全文

posted @ 2021-07-01 15:13 打杂滴阅读(204) 评论(0) 推荐(0) |

spark-3.1.1-bin-hadoop2.7安装配置

摘要：下载 wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz 解压 tar -vxf spark-3.1.1-bin-hadoop2.7.tgz -C /opt/module/ 配阅读全文

posted @ 2021-04-27 14:44 打杂滴阅读(1740) 评论(0) 推荐(0) |

spark快速大数据分析

摘要：从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算阅读全文

posted @ 2018-10-09 11:26 打杂滴阅读(150) 评论(0) 推荐(0) |

sparksql进阶

摘要：scala> val df=spark.read.json("/tmp/pdf1json")df: org.apache.spark.sql.DataFrame = [age: bigint, fv: bigint ... 1 more field] scala> df.show+ + + +|ag 阅读全文

posted @ 2018-09-26 14:46 打杂滴阅读(1539) 评论(0) 推荐(0) |

spark读取文本数据测试

摘要：已知文本有三列，整理数据，并导入mysql scala> import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.SQLContext scala> val gitrdd=sc.textFile("/tmp/git.txt" 阅读全文

posted @ 2018-09-17 11:45 打杂滴阅读(355) 评论(0) 推荐(0) |

spark sql

摘要：scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hivecon=new HiveContext(sc) warning: there 阅读全文

posted @ 2018-09-10 13:19 打杂滴阅读(102) 评论(0) 推荐(0) |

DSL

摘要：DSL(Domain Spercific Language) 阅读全文

posted @ 2018-09-06 17:58 打杂滴阅读(145) 评论(0) 推荐(0) |

spark 实现TOP N

摘要：数据量较少的情况下： scala> numrdd.sortBy(x=>x,false).take(3) res17: Array[Int] = Array(100, 99, 98) scala> numrdd.sortBy(x=>x,true).take(3) res18: Array[Int] = 阅读全文

posted @ 2018-08-31 17:53 打杂滴阅读(801) 评论(0) 推荐(0) |

性能优化相关

摘要：CPU利用率 [root@host ~]# cat /proc/cpuinfo |grep "processor"|wc -l4 查看本机的核心数最常用CPU监测工具是TOP，当然TOP输出是一个瞬间值，如果想获取精确的数据，需要持续关注一段时间。 [root@host ~]# top top - 阅读全文

posted @ 2018-08-23 15:00 打杂滴阅读(186) 评论(0) 推荐(0) |

spark sql运行原理

摘要：Spark sql 对SQL语句的处理，先将SQL语句进行解析（parse）形成一个tree,然后使用Rule对Tree进行绑定,优化等处理过程，通过模式匹配对不同类型的节点采用不同操作。查询优化器是Catalyst,它负责处理查询语句的解析，绑定，优化和生成物理计划等过程，Catalyst是Spa 阅读全文

posted @ 2018-08-22 10:09 打杂滴阅读(551) 评论(0) 推荐(0) |

spark基础知识介绍2

摘要：dataframe以RDD为基础的分布式数据集，与RDD的区别是，带有Schema元数据，即DF所表示的二维表数据集的每一列带有名称和类型，好处：精简代码；提升执行效率；减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER，那么集群的所有运行数据在Ma 阅读全文

posted @ 2018-08-22 09:53 打杂滴阅读(349) 评论(0) 推荐(0) |

spark基础知识介绍(包含foreachPartition写入mysql）

摘要：数据本地性数据计算尽可能在数据所在的节点上运行，这样可以减少数据在网络上的传输，毕竟移动计算比移动数据代价小很多。进一步看，数据如果在运行节点的内存中，就能够进一步减少磁盘的I/O的传输。在spark中，数据本地性优先级从高到低为PROCESS_LOCAL>NODE_LOCAL>NO_PREF>R 阅读全文

posted @ 2018-08-17 13:26 打杂滴阅读(4499) 评论(0) 推荐(0) |

spark 运行架构

摘要：spark 运行架构基本由三部分组成，包括SparkContext(驱动程序)，ClusterManager(集群资源管理器)和Executor(任务执行过程)组成。其中SparkContext负责与ClusterManager通信，进行资源的申请.任务的分配.监控等，负责作业执行的声明周期管理。阅读全文

posted @ 2018-08-16 10:51 打杂滴阅读(835) 评论(0) 推荐(0) |

spark核心原理

摘要：spark运行结构图如下： spark基本概念应用程序(application)：用户编写的spark应用程序，包含驱动程序（Driver）和分布在集群中多个节点上运行的Executor代码，在执行过程中由一个或者多个作业组成。驱动程序(dirver)：spark中Driver即运行上述Appl 阅读全文

posted @ 2018-08-15 10:26 打杂滴阅读(482) 评论(0) 推荐(0) |

行动操作

摘要：first count reduce collect take top takeOrdered aggregate fold lookup countByKey foreach foreachPartition sortBy 阅读全文

posted @ 2018-08-14 16:06 打杂滴阅读(97) 评论(0) 推荐(0) |

控制操作

摘要：cache persist checkpoint 阅读全文

posted @ 2018-08-14 16:03 打杂滴阅读(100) 评论(0) 推荐(0) |

键值转换操作

摘要：partitionBy mapValues flatMapValues combineByKey scala> aa.collect res77: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) scala> val mapRDD=aa.map(x 阅读全文

posted @ 2018-08-14 16:02 打杂滴阅读(165) 评论(0) 推荐(0) |

zip和zipPartitions

摘要：zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。 scala> val aa=sc.makeRDD(1 to 10) aa: org.apache.spark.rdd.RDD[Int] = Parallel 阅读全文

posted @ 2018-08-14 15:45 打杂滴阅读(430) 评论(0) 推荐(0) |

RDD编程接口

摘要：Spark中提供了通用接口来抽象每个RDD，这些接口包括： 1.分区信息 2.依赖关系 3.函数，基于父RDD计算方法 4.划分策略和数据位置的元数据阅读全文

posted @ 2018-08-14 15:12 打杂滴阅读(97) 评论(0) 推荐(0) |

RDD的分区相关

摘要：分区是rdd的一个属性，每个分区是一个迭代器分区器是决定数据数据如何分区 RDD划分成许多分区分布到集群的节点上，分区的多少涉及对这个RDD进行并行计算的粒度。用户可以获取分区数和设置分区数目，默认分区数为程序分配到的CPU核数。 spark中，RDD计算是以分区为单位的，而且计算函数都是在对迭代阅读全文

posted @ 2018-08-13 14:35 打杂滴阅读(226) 评论(0) 推荐(0) |

努力，奋斗

公告

随笔分类 - spark