liudehaos

还历史以真诚,还生命以过程。 ——余秋雨
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2022年7月20日

摘要: 一、依赖 maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins 阅读全文

posted @ 2022-07-20 22:28 liudehaos 阅读(58) 评论(0) 推荐(0) 编辑

摘要: Spark 资源调度和任务调度 RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置,尽量将task发送到数据所在节点执行 spark程序 阅读全文

posted @ 2022-07-20 21:30 liudehaos 阅读(48) 评论(0) 推荐(0) 编辑

摘要: Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 阅读全文

posted @ 2022-07-20 21:29 liudehaos 阅读(46) 评论(0) 推荐(0) 编辑

摘要: 一、相关信息题目:1、统计班级人数2、统计学生的总分3、统计总分年级排名前十学生各科的分数4、统计总分大于年级平均分的学生5、统计每科都及格的学生6、统计偏科最严重的前100名学生数据样例(部分数据):1.学生信息数据:students.txt 1500100001,施笑槐,22,女,文科六班 15 阅读全文

posted @ 2022-07-20 21:26 liudehaos 阅读(437) 评论(0) 推荐(0) 编辑

摘要: 数据样例: java,spark,hadoop,python,datax java,spark,hadoop,spark,python,datax java,spark,hadoop,python,datax java,spark,hadoop,spark,python java,spark,had 阅读全文

posted @ 2022-07-20 20:42 liudehaos 阅读(36) 评论(0) 推荐(0) 编辑

摘要: package com.shujia.scala import java.io.{BufferedReader, FileReader, FileWriter} import scala.io.{BufferedSource, Source} object Demo2IO { def main(ar 阅读全文

posted @ 2022-07-20 20:27 liudehaos 阅读(351) 评论(0) 推荐(0) 编辑

摘要: 一、配置相关环境 1.增加项目 在idea里面创建新的maven项目 2. 在pom文件中增加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi= 阅读全文

posted @ 2022-07-20 20:05 liudehaos 阅读(50) 评论(0) 推荐(0) 编辑

摘要: 一、Scala介绍 1. Scala概念 Scala 是 Scalable Language 的简写,是一门多范式的编程语言 联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。 Scala是把函数式编程思想和面向对象编程思想结合的一种编程 阅读全文

posted @ 2022-07-20 19:46 liudehaos 阅读(76) 评论(0) 推荐(0) 编辑