联合会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
数据技术之家
博客园
首页
新随笔
联系
管理
订阅
随笔- 40 文章- 0 评论- 0 阅读-
16116
07 2022 档案
大数据开源平台CDH 集群(CM6.3.1 + CDH 6.3.2)的部署
摘要:CDH部署
阅读全文
posted @
2022-07-22 19:39
gaussen126
阅读(740)
评论(0)
推荐(0)
编辑
Spark 中三种数据处理对象的区别: RDD-Dataset-Dataframe
摘要:1,对比表: RDD Dataframe Dataset 版本 1.0 1.3 1.6 描述 分布式数据集合 行列化的分布式数据集合 RDD 和 DataFrame的结合 数据格式 结构化和非结构化都可以 结构化和半结构化都可以 结构化和非结构化都可以 数据源 多种 多种 多种 不变性和互通性 容易
阅读全文
posted @
2022-07-06 15:01
gaussen126
阅读(98)
评论(0)
推荐(0)
编辑
公告
昵称:
gaussen126
园龄:
9年2个月
粉丝:
1
关注:
16
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
我的标签
数据科学
(3)
pyspark
(1)
机器学习
(1)
随笔分类
hadoop(2)
HIVE(1)
Java(5)
python(6)
spark(5)
SQL(1)
公司_业务模型(1)
数据仓库(5)
数据结构算法(2)
随笔档案
2024年7月(2)
2023年5月(7)
2023年4月(1)
2023年3月(1)
2022年12月(1)
2022年11月(2)
2022年10月(2)
2022年7月(2)
2022年6月(20)
2022年5月(1)
2016年12月(1)
阅读排行榜
1. 复杂SQL语句及其优化(2786)
2. 在 Jupyter Notebook 中使用Python虚拟环境(1392)
3. JAVA集合框架特征介绍(1237)
4. mysql-canal-kafka-kettle 数据实时同步链部署bug 填坑过程(1142)
5. 什么是主数据?(转载)(846)
点击右上角即可分享