liudehaos

还历史以真诚,还生命以过程。 ——余秋雨
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2022年7月20日

摘要: Spark 资源调度和任务调度 RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置,尽量将task发送到数据所在节点执行 spark程序 阅读全文

posted @ 2022-07-20 21:30 liudehaos 阅读(48) 评论(0) 推荐(0) 编辑

摘要: Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 阅读全文

posted @ 2022-07-20 21:29 liudehaos 阅读(46) 评论(0) 推荐(0) 编辑

摘要: 一、相关信息题目:1、统计班级人数2、统计学生的总分3、统计总分年级排名前十学生各科的分数4、统计总分大于年级平均分的学生5、统计每科都及格的学生6、统计偏科最严重的前100名学生数据样例(部分数据):1.学生信息数据:students.txt 1500100001,施笑槐,22,女,文科六班 15 阅读全文

posted @ 2022-07-20 21:26 liudehaos 阅读(437) 评论(0) 推荐(0) 编辑

摘要: 数据样例: java,spark,hadoop,python,datax java,spark,hadoop,spark,python,datax java,spark,hadoop,python,datax java,spark,hadoop,spark,python java,spark,had 阅读全文

posted @ 2022-07-20 20:42 liudehaos 阅读(36) 评论(0) 推荐(0) 编辑

摘要: package com.shujia.scala import java.io.{BufferedReader, FileReader, FileWriter} import scala.io.{BufferedSource, Source} object Demo2IO { def main(ar 阅读全文

posted @ 2022-07-20 20:27 liudehaos 阅读(351) 评论(0) 推荐(0) 编辑

摘要: 一、配置相关环境 1.增加项目 在idea里面创建新的maven项目 2. 在pom文件中增加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi= 阅读全文

posted @ 2022-07-20 20:05 liudehaos 阅读(50) 评论(0) 推荐(0) 编辑

摘要: 一、Scala介绍 1. Scala概念 Scala 是 Scalable Language 的简写,是一门多范式的编程语言 联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。 Scala是把函数式编程思想和面向对象编程思想结合的一种编程 阅读全文

posted @ 2022-07-20 19:46 liudehaos 阅读(76) 评论(0) 推荐(0) 编辑

2022年6月23日

摘要: Sqoop简介 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具、 官网: http://sqoop.apache.org/ 版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x sqoop架构非 阅读全文

posted @ 2022-06-23 19:55 liudehaos 阅读(722) 评论(0) 推荐(0) 编辑

摘要: 分布式日志采集系统Flume学习 一、Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方( 阅读全文

posted @ 2022-06-23 19:39 liudehaos 阅读(283) 评论(0) 推荐(0) 编辑

摘要: HBase学习(四) 一、HBase的读写流程 画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeeper中获取一个hbase:meta表位置信息,被哪一个regionserver所管理着 hbase:m 阅读全文

posted @ 2022-06-23 16:10 liudehaos 阅读(1130) 评论(0) 推荐(0) 编辑