2021年3月6日
摘要: pom: <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.48</version></dependency> val conf = new SparkCo 阅读全文
posted @ 2021-03-06 23:40 陕西小楞娃 阅读(87) 评论(0) 推荐(0) 编辑
摘要: def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaster("local").setAppName("test") val session: SparkSession = SparkS 阅读全文
posted @ 2021-03-06 13:15 陕西小楞娃 阅读(41) 评论(0) 推荐(0) 编辑
摘要: sql语言分为四类1.数据查询语言DQL (查询语句)2.数据操纵语言DML (删除、创建、更新)3.数据定义语言DDL (创建数据库中的各种对象—–表、视图、索引、同义词、聚簇)4.数据控制语言DCL (数据控制语言DCL用来授予或回收访问数据库的某种特权,并控制数据库操纵事务发生的时间及效果,对 阅读全文
posted @ 2021-03-06 12:24 陕西小楞娃 阅读(115) 评论(0) 推荐(0) 编辑
  2021年2月15日
摘要: spark源码: 版本:2.3.4: https://github.com/apache/spark/tree/v2.3.4 RPC:1.解析:远程进程调用 2.:传输类型: 1.同一进程 2. 不同的进程 同一主机 3.不同的进程、不同的主机(最复杂) 实例A > 实例B3.传输方式: 实例A(有 阅读全文
posted @ 2021-02-15 21:21 陕西小楞娃 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 停止之前使用的master、worker模式,使用yarn模式 停止 [root@ke01 sbin]# ./stop-all.sh [root@ke01 sbin]# ./stop-history-server.sh [root@ke02 sbin]# ./stop-master.sh 配置spa 阅读全文
posted @ 2021-02-15 19:49 陕西小楞娃 阅读(42) 评论(0) 推荐(0) 编辑
  2021年2月14日
摘要: 官网 http://spark.apache.org/ 下载spark-2.3.4-bin-hadoop2.6.tgz 单机启动 进入 bin 目录 启动 ./spark-shell 测试: sc.textFile("/tmp/spark/test.txt").flatMap(x => x.spli 阅读全文
posted @ 2021-02-14 21:14 陕西小楞娃 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 数据 2019-6-1 39 2019-5-21 33 2019-6-1 38 2019-6-2 31 2018-3-11 18 2018-4-23 22 1970-8-23 23 1970-8-8 32 方法一: val conf = new SparkConf().setAppName("ove 阅读全文
posted @ 2021-02-14 14:44 陕西小楞娃 阅读(133) 评论(0) 推荐(0) 编辑
  2021年2月6日
摘要: 排序 val conf = new SparkConf().setMaster("local").setAppName("sort") val sc = new SparkContext(conf) //需求: 根据数据计算个网站的PV、UV、同时、只显示top3 // 设置三个分区 //数据格式: 阅读全文
posted @ 2021-02-06 22:13 陕西小楞娃 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 取范围 val conf = new SparkConf().setMaster("local").setAppName("test") val sc = new SparkContext(conf) val list = sc.parallelize(List(1,2,3,4,5,2,1)) va 阅读全文
posted @ 2021-02-06 21:54 陕西小楞娃 阅读(338) 评论(0) 推荐(0) 编辑
  2021年2月4日
摘要: 资源是可以服用的 RDD是可以复用的 RDD是abstract 有多少种子类 A Resilient Distributed Dataset (RDD)弹性分布式数据集 五种属性 A list of partitions -分区列表 A function for computing each spl 阅读全文
posted @ 2021-02-04 22:46 陕西小楞娃 阅读(87) 评论(0) 推荐(0) 编辑