会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
yuncannotjava
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
1
2
3
4
5
···
8
下一页
2024年3月1日
架构漫谈观后感
摘要: 切分就是利益的调整 我们要非常的清楚,所有的切分调整,都是对相关人的利益的调整。为什么这么说呢,因为维护自己的利益,是每个人的本性,是在骨子里面的,我们不能逃避这一点。我们以第一篇文章里面的例子为例来做解释。 我们已经知道,随着社会的发展,分工是必然的,为什么呢? 这个背后的动力就是每个人自己的利益
阅读全文
posted @ 2024-03-01 23:53 云云云云云云云云
阅读(2)
评论(0)
推荐(0)
编辑
2024年2月1日
2/1 学习进度笔记
摘要: 全部学习完成
阅读全文
posted @ 2024-02-01 14:55 云云云云云云云云
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月31日
1/31 学习进度笔记
摘要: 今日完成了商单案例: 源码: # coding:utf8from pyspark import StorageLevelfrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql
阅读全文
posted @ 2024-01-31 18:00 云云云云云云云云
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月30日
1/30 学习进度笔记
摘要: 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。 回顾Hive中自定义函数有三
阅读全文
posted @ 2024-01-30 16:49 云云云云云云云云
阅读(6)
评论(0)
推荐(0)
编辑
2024年1月29日
1/29 学习进度笔记
摘要: SparkSQL数据清洗API 前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。 去重方法dropDuplicates 功能:对DF的数据进行去重,如果重复数据有多条,取第一条 缺失值处理dr
阅读全文
posted @ 2024-01-29 16:27 云云云云云云云云
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月28日
1/28 学习进度笔记
摘要: SQL风格语法-注册DataFrame成为表 DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表,然后可以通过在程序中使用spark.sql()来执行SQL语句查询,结果返回一个DataFrame。 如果想使用SQL风格的语法,需要将DataFrame注册成表,采用如下的方式:
阅读全文
posted @ 2024-01-28 17:38 云云云云云云云云
阅读(8)
评论(0)
推荐(0)
编辑
2024年1月27日
1/27 学习进度笔记
摘要: 今日学习了DataFrame的代码构建--读取外部数据 读取数据源包括text,csv,json,parquet四种数据源 schema = StructType().add("data",StringType(),nullable=True)df = spark.read.format("text
阅读全文
posted @ 2024-01-27 14:46 云云云云云云云云
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月26日
1/26 学习进度笔记
摘要: 学习的DateFrame的组成以及创建 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 1.行 2.列 3.表结构描述 比如,在MySQL中的一张表: 1.由许多行组成 2.数据也被分成多个列 3.表也有表结构信息(列、列名、列类型、列约束等) 基于这个前提,DataFram
阅读全文
posted @ 2024-01-26 17:26 云云云云云云云云
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月25日
1/25 学习进度笔记
摘要: SparkSQL? 1. SparkSQL用于处理大规模结构化数据的计算引擎 2. SparkSQL在企业中广泛使用,并性能极好,学习它不管是工作还是就业都有很大帮助 3. SparkSQL:使用简单、API统一、兼容HIVE、支持标准化JDBC和ODBC连接 4. SparkSQL 2014年正式
阅读全文
posted @ 2024-01-25 13:56 云云云云云云云云
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月24日
1/24 学习进度笔记
摘要: DAG的宽窄依赖? 窄依赖:父RDD的一个分区,全部将数据发给子RDD的一个分区 宽依赖:父RDD的一个分区,将数据发给子RDD的多个分区 宽依赖还有一个别名: shuffle DAG调度器 工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Task划分 Task调度器 工作内容:基于DAG Sc
阅读全文
posted @ 2024-01-24 19:02 云云云云云云云云
阅读(6)
评论(0)
推荐(0)
编辑
1
2
3
4
5
···
8
下一页