会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yuncannotjava
昵称:
云云云云云云云云
园龄:
2年8个月
粉丝:
0
关注:
0
+加关注
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔档案
2024年3月(1)
2024年2月(1)
2024年1月(22)
2023年12月(1)
2023年10月(1)
2023年9月(5)
2023年8月(1)
2023年7月(3)
2023年5月(10)
2023年4月(12)
2023年3月(3)
2023年2月(4)
2022年10月(3)
2022年9月(4)
2022年8月(2)
2022年7月(6)
2022年6月(1)
阅读排行榜
1. JDK的安装以及配置(959)
2. 课堂作业--uml九大图(67)
3. 《大道至简》读后感(49)
4. Static的相关知识(47)
5. 结对作业(35)
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2024年3月1日
架构漫谈观后感
摘要: 切分就是利益的调整 我们要非常的清楚,所有的切分调整,都是对相关人的利益的调整。为什么这么说呢,因为维护自己的利益,是每个人的本性,是在骨子里面的,我们不能逃避这一点。我们以第一篇文章里面的例子为例来做解释。 我们已经知道,随着社会的发展,分工是必然的,为什么呢? 这个背后的动力就是每个人自己的利益
阅读全文
posted @ 2024-03-01 23:53 云云云云云云云云
阅读(3)
评论(0)
推荐(0)
编辑
2024年2月1日
2/1 学习进度笔记
摘要: 全部学习完成
阅读全文
posted @ 2024-02-01 14:55 云云云云云云云云
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月31日
1/31 学习进度笔记
摘要: 今日完成了商单案例: 源码: # coding:utf8from pyspark import StorageLevelfrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql
阅读全文
posted @ 2024-01-31 18:00 云云云云云云云云
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月30日
1/30 学习进度笔记
摘要: 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。 回顾Hive中自定义函数有三
阅读全文
posted @ 2024-01-30 16:49 云云云云云云云云
阅读(9)
评论(0)
推荐(0)
编辑
2024年1月29日
1/29 学习进度笔记
摘要: SparkSQL数据清洗API 前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。 去重方法dropDuplicates 功能:对DF的数据进行去重,如果重复数据有多条,取第一条 缺失值处理dr
阅读全文
posted @ 2024-01-29 16:27 云云云云云云云云
阅读(6)
评论(0)
推荐(0)
编辑
2024年1月28日
1/28 学习进度笔记
摘要: SQL风格语法-注册DataFrame成为表 DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表,然后可以通过在程序中使用spark.sql()来执行SQL语句查询,结果返回一个DataFrame。 如果想使用SQL风格的语法,需要将DataFrame注册成表,采用如下的方式:
阅读全文
posted @ 2024-01-28 17:38 云云云云云云云云
阅读(9)
评论(0)
推荐(0)
编辑
2024年1月27日
1/27 学习进度笔记
摘要: 今日学习了DataFrame的代码构建--读取外部数据 读取数据源包括text,csv,json,parquet四种数据源 schema = StructType().add("data",StringType(),nullable=True)df = spark.read.format("text
阅读全文
posted @ 2024-01-27 14:46 云云云云云云云云
阅读(6)
评论(0)
推荐(0)
编辑
2024年1月26日
1/26 学习进度笔记
摘要: 学习的DateFrame的组成以及创建 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 1.行 2.列 3.表结构描述 比如,在MySQL中的一张表: 1.由许多行组成 2.数据也被分成多个列 3.表也有表结构信息(列、列名、列类型、列约束等) 基于这个前提,DataFram
阅读全文
posted @ 2024-01-26 17:26 云云云云云云云云
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月25日
1/25 学习进度笔记
摘要: SparkSQL? 1. SparkSQL用于处理大规模结构化数据的计算引擎 2. SparkSQL在企业中广泛使用,并性能极好,学习它不管是工作还是就业都有很大帮助 3. SparkSQL:使用简单、API统一、兼容HIVE、支持标准化JDBC和ODBC连接 4. SparkSQL 2014年正式
阅读全文
posted @ 2024-01-25 13:56 云云云云云云云云
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月24日
1/24 学习进度笔记
摘要: DAG的宽窄依赖? 窄依赖:父RDD的一个分区,全部将数据发给子RDD的一个分区 宽依赖:父RDD的一个分区,将数据发给子RDD的多个分区 宽依赖还有一个别名: shuffle DAG调度器 工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Task划分 Task调度器 工作内容:基于DAG Sc
阅读全文
posted @ 2024-01-24 19:02 云云云云云云云云
阅读(8)
评论(0)
推荐(0)
编辑
下一页
点击右上角即可分享