Nevesettle - 博客园

2021年3月1日

摘要： filter 将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜。 val dataRDD = sparkContext.makeRDD(List( 1,2,3,4 ),1) va 阅读全文

posted @ 2021-03-01 16:24 Nevesettle 阅读(53) 评论(0) 推荐(0) 编辑

day26-RDD 转换算子(3)

摘要： glom 将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变 val dataRDD = sparkContext.makeRDD(List( 1,2,3,4 ),1) val dataRDD1:RDD[Array[Int]] = dataRDD.glom() groupBy 将数据根阅读全文

posted @ 2021-03-01 16:23 Nevesettle 阅读(54) 评论(0) 推荐(0) 编辑

day25-RDD 转换算子(2)

摘要： mapPartitionsWithIndex 将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据，在处理时同时可以获取当前分区索引。 val dataRDD1 = dataRDD.mapPartitionsWithIndex( (index, dat 阅读全文

posted @ 2021-03-01 16:22 Nevesettle 阅读(50) 评论(0) 推荐(0) 编辑

day24-RDD 转换算子

摘要： map 将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。 val dataRDD: RDD[Int] = sparkContext.makeRDD(List(1,2,3,4)) val dataRDD1: RDD[Int] = dataRDD.map( num => { 阅读全文

posted @ 2021-03-01 16:20 Nevesettle 阅读(64) 评论(0) 推荐(0) 编辑

day23-RDD相关

摘要：从集合（内存）中创建 RDD val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) val rdd1 = spa 阅读全文

posted @ 2021-03-01 16:18 Nevesettle 阅读(56) 评论(0) 推荐(0) 编辑

day22-RDD执行原理

摘要：从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。 Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计算。阅读全文

posted @ 2021-03-01 16:16 Nevesettle 阅读(81) 评论(0) 推荐(0) 编辑

day21-RDD

摘要： ![](https://img2020.cnblogs.com/blog/1717425/202103/1717425-20210301161304238-418420342.png) ![](https://img2020.cnblogs.com/blog/1717425/202103/1717425-20210301161340748-1578078315.png) ![](https://i 阅读全文

posted @ 2021-03-01 16:14 Nevesettle 阅读(36) 评论(0) 推荐(0) 编辑

2021年2月22日

day20-spark实现Wordcount

摘要： import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object WordCount { def main(args: Array[String]): Unit = { // 创建配置文件阅读全文

posted @ 2021-02-22 10:51 Nevesettle 阅读(69) 评论(0) 推荐(0) 编辑

2021年2月5日

day19-python生成文件并提供下载踩的坑

摘要：现在有一个生成文件并提供下载的需求，原代码为(csdn一个博客的)： # app.py from flask import send_file import xlsxwriter @app.route("/students/v1.0/excel", methods=["GET"]) def stud 阅读全文

posted @ 2021-02-05 19:08 Nevesettle 阅读(75) 评论(0) 推荐(0) 编辑

2021年2月3日

day18-RNN实现手写数字识别

摘要： # coding=utf-8 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data from tensorflow.contrib import rnn def weight_variab 阅读全文

posted @ 2021-02-03 12:22 Nevesettle 阅读(112) 评论(0) 推荐(0) 编辑

无人i

公告