• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






yuncannotjava

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

01 2024 档案

 
1/31 学习进度笔记
摘要:今日完成了商单案例: 源码: # coding:utf8from pyspark import StorageLevelfrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql 阅读全文
posted @ 2024-01-31 18:00 云云云云云云云云 阅读(27) 评论(0) 推荐(0)
1/30 学习进度笔记
摘要:无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。 回顾Hive中自定义函数有三 阅读全文
posted @ 2024-01-30 16:49 云云云云云云云云 阅读(39) 评论(0) 推荐(0)
1/29 学习进度笔记
摘要:SparkSQL数据清洗API 前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。 去重方法dropDuplicates 功能:对DF的数据进行去重,如果重复数据有多条,取第一条 缺失值处理dr 阅读全文
posted @ 2024-01-29 16:27 云云云云云云云云 阅读(34) 评论(0) 推荐(0)
1/28 学习进度笔记
摘要:SQL风格语法-注册DataFrame成为表 DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表,然后可以通过在程序中使用spark.sql()来执行SQL语句查询,结果返回一个DataFrame。 如果想使用SQL风格的语法,需要将DataFrame注册成表,采用如下的方式: 阅读全文
posted @ 2024-01-28 17:38 云云云云云云云云 阅读(57) 评论(0) 推荐(0)
1/27 学习进度笔记
摘要:今日学习了DataFrame的代码构建--读取外部数据 读取数据源包括text,csv,json,parquet四种数据源 schema = StructType().add("data",StringType(),nullable=True)df = spark.read.format("text 阅读全文
posted @ 2024-01-27 14:46 云云云云云云云云 阅读(16) 评论(0) 推荐(0)
1/26 学习进度笔记
摘要:学习的DateFrame的组成以及创建 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 1.行 2.列 3.表结构描述 比如,在MySQL中的一张表: 1.由许多行组成 2.数据也被分成多个列 3.表也有表结构信息(列、列名、列类型、列约束等) 基于这个前提,DataFram 阅读全文
posted @ 2024-01-26 17:26 云云云云云云云云 阅读(32) 评论(0) 推荐(0)
1/25 学习进度笔记
摘要:SparkSQL? 1. SparkSQL用于处理大规模结构化数据的计算引擎 2. SparkSQL在企业中广泛使用,并性能极好,学习它不管是工作还是就业都有很大帮助 3. SparkSQL:使用简单、API统一、兼容HIVE、支持标准化JDBC和ODBC连接 4. SparkSQL 2014年正式 阅读全文
posted @ 2024-01-25 13:56 云云云云云云云云 阅读(18) 评论(0) 推荐(0)
1/24 学习进度笔记
摘要:DAG的宽窄依赖? 窄依赖:父RDD的一个分区,全部将数据发给子RDD的一个分区 宽依赖:父RDD的一个分区,将数据发给子RDD的多个分区 宽依赖还有一个别名: shuffle DAG调度器 工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Task划分 Task调度器 工作内容:基于DAG Sc 阅读全文
posted @ 2024-01-24 19:02 云云云云云云云云 阅读(22) 评论(0) 推荐(0)
1/23 学习进度笔记
摘要:今日学习了如何使用Spark中的累加器功能,并按要求完成了广播变量加上累加器的统计单词的小案例 累加器的功能? 在分布式执行的代码中,累加器accumulator可以进行全局累加 小案例:在下图文本中实现1.统计特殊符号出现次数2.对单词出现进行统计 原码: # coding:utf8from py 阅读全文
posted @ 2024-01-23 18:35 云云云云云云云云 阅读(45) 评论(0) 推荐(0)
1/22 学习进度笔记
摘要:今日因个人原因,全天忙碌无时间学习,故请假一天没有进度笔记 阅读全文
posted @ 2024-01-23 18:30 云云云云云云云云 阅读(20) 评论(0) 推荐(0)
1/21 学习进度笔记
摘要:今日学习Spark中的广播变量: 使用场景:本地集合对象和分布式集合对象(RDD)进行关联的时候,需要将本地集合对象封装为广播变量 可以节省: 1.网络IO的次数 2.Eexcutor的内存占用 使用方法: 阅读全文
posted @ 2024-01-21 19:50 云云云云云云云云 阅读(15) 评论(0) 推荐(0)
1/20 学习进度笔记
摘要:完成了搜索引擎日志分析小案例 数据由两万条一下六列相同格式的单个数据组成 分别对应:搜索时间 用户ID 搜索内容 URL返回排名 用户点击顺序 用户点击的URL 使用到了python的jieba插件进行热词的分析 TODO: 需求1: 用户搜索关键‘词’分析需求1结果: [('scala', 231 阅读全文
posted @ 2024-01-20 20:00 云云云云云云云云 阅读(31) 评论(0) 推荐(0)
1/18 学习进度笔记
摘要: 阅读全文
posted @ 2024-01-19 23:03 云云云云云云云云 阅读(9) 评论(0) 推荐(0)
1/19 学习进度笔记
摘要:1.Cache和Checkpoint区别Cache是轻量化保存RDD数据,可存储在内存和硬盘,是分散存储,设计上数据是不安全的(保留RDD血缘关系)CheckPoint是重量级保存RDD数据,是集中存储,只能存储在硬盘(HDFS)上,设计上是安全的(不保留RDD血缘关系)2.Cache和CheckP 阅读全文
posted @ 2024-01-19 23:03 云云云云云云云云 阅读(21) 评论(0) 推荐(0)
1/16 学习进度笔记
摘要: 阅读全文
posted @ 2024-01-19 23:02 云云云云云云云云 阅读(8) 评论(0) 推荐(0)
1/17 学习进度笔记
摘要: 阅读全文
posted @ 2024-01-19 23:02 云云云云云云云云 阅读(17) 评论(0) 推荐(0)
1/15 学习进度笔记
摘要:进入学习了RDD的创建以及map算子 阅读全文
posted @ 2024-01-15 19:05 云云云云云云云云 阅读(21) 评论(0) 推荐(0)
1/14 学习进度笔记
摘要:Python On Spark的执行流程 分布式代码执行的重要特征? 代码在集群上运行,是被分布式运行的。 在Spark中,非任务处理部分由Driver执行(非RDD代码) 任务处理部分是由Executor执行(RDD代码) Executor的数量可以很多,所以任务的计算是分布式在运行的。 Pysp 阅读全文
posted @ 2024-01-14 17:39 云云云云云云云云 阅读(28) 评论(0) 推荐(0)
1/13 学习进度笔记
摘要:今日安装了PySpark库以及学习了如何在Windows系统中通过SSH远程连接Linux系统使用Python语言来开发Spark程序 什么是PySpark 我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务我们现在 阅读全文
posted @ 2024-01-13 23:08 云云云云云云云云 阅读(22) 评论(0) 推荐(0)
1/12 学习进度笔记
摘要:StandAlone HA的原理 基于Zookeeper做状态的维护,开启多个Master进程,一个作为活跃,其他的作为备份,当活跃进程宕机,备份Master进行接管。 Spark StandAlone HA 环境搭建 步骤 前提: 确保Zookeeper 和 HDFS 均已经启动 先在spark- 阅读全文
posted @ 2024-01-12 19:20 云云云云云云云云 阅读(44) 评论(0) 推荐(0)
1/11 学习进度笔记
摘要:Spark的程序运行层次结构 4040:是一个运行的Application在运行过程中临时绑定的端口,用于查看当前任务的状态。4040被占用就会顺延到4041,4042等。 4040是一个临时端口,当前程序运行完成后,4040就会被注销。 8080:默认是StandAlone下,Master角色(进 阅读全文
posted @ 2024-01-11 21:53 云云云云云云云云 阅读(36) 评论(0) 推荐(0)
1/10 学习进度笔记
摘要:Spark StandAlone环境部署 新角色 历史服务器 历史服务器不是Spark环境的必要组件, 是可选的. 回忆: 在YARN中 有一个历史服务器, 功能: 将YARN运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息. Spark的历史服务器, 功能: 将Spar 阅读全文
posted @ 2024-01-10 20:52 云云云云云云云云 阅读(29) 评论(0) 推荐(0)