会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
没有风的夜
博客园
首页
新随笔
联系
管理
订阅
随笔- 66 文章- 8 评论- 0 阅读-
22672
随笔分类 -
笔记: 大数据 -- 基础
CDA课程学习笔记
常见端口号
摘要:1、Hadoop | 目录 | Hadoop3.x | | | | | 访问HDFS端口 | 50070 | | 访问MR执行情况端口 | 8088 | | 历史服务器 | 19888 | | 客户端访问集群端口 | 9000 | 2、Hive 10002 : hiveservice2服务默认监听端
阅读全文
posted @
2023-02-04 00:08
半个程序猿Cohen_Lee
阅读(106)
评论(0)
推荐(1)
编辑
Hive+spark工业化项目
摘要:DolphinScheduler:国产调度平台 airflow: 调度平台
阅读全文
posted @
2022-09-29 14:40
半个程序猿Cohen_Lee
阅读(19)
评论(0)
推荐(0)
编辑
大数据开发学习路线
摘要:https://cloud.tencent.com/developer/article/2073235
阅读全文
posted @
2022-08-21 16:52
半个程序猿Cohen_Lee
阅读(24)
评论(0)
推荐(0)
编辑
大数据相关问题
摘要:###数据湖与数据仓库的区别 根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。 数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富
阅读全文
posted @
2022-08-11 09:58
半个程序猿Cohen_Lee
阅读(23)
评论(0)
推荐(0)
编辑
数据仓库建模基础理论-(1)
摘要:##数仓建模课程介绍
阅读全文
posted @
2022-08-10 10:11
半个程序猿Cohen_Lee
阅读(21)
评论(0)
推荐(0)
编辑
2022年7月bench学习计划
摘要:选择技术 Pyspark + hive 制定项目 计划spark+hive离线数仓项目 根据b站学习,做笔记,demo项目 项目效果: https://www.jianshu.com/p/feca6ab96cb1
阅读全文
posted @
2022-07-05 09:45
半个程序猿Cohen_Lee
阅读(19)
评论(0)
推荐(0)
编辑
大数据常用命令
摘要:##Hadoop ###集群开启命令 start-all.sh mapred --daemon start historyserver ##hive 启动beeline模式:./beeline -u jdbc:hive2://node1:10000 -n atguigu 启动hiveservice2
阅读全文
posted @
2022-06-21 10:26
半个程序猿Cohen_Lee
阅读(25)
评论(0)
推荐(0)
编辑
大数据导论--Linux基础
摘要:大数据导论 ##企业大数据分析方向 数据是什么 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号 或这些物理符号的组合,它是可识别的、抽象的符号。 ###数据分析 把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效
阅读全文
posted @
2022-06-01 17:06
半个程序猿Cohen_Lee
阅读(80)
评论(0)
推荐(0)
编辑
大数据开发具备知识
摘要:一,题记 要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。 二,大数据里面的角色 角色一:大数据工程 大数据工程需要解决数据
阅读全文
posted @
2022-04-01 22:47
半个程序猿Cohen_Lee
阅读(162)
评论(0)
推荐(0)
编辑
分享:从0开始学习大数据
摘要:大数据基础 一、大数据时代的认识与简介 (一)学习大数据的意义 在未来,软件开发将是“面向 AI 编程”,软件的核心业务逻辑和价值将围绕机器学习的结果也就是 AI 展开,软件工程师的工作就是考虑如何将机器学习的结果更好地呈现出来,如何更好地实现人和 AI 的交互。 将来,数据会越来越成为公司的核心资
阅读全文
posted @
2021-04-21 19:24
半个程序猿Cohen_Lee
阅读(197)
评论(0)
推荐(0)
编辑
公告
昵称:
半个程序猿Cohen_Lee
园龄:
4年10个月
粉丝:
2
关注:
9
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
我的标签
个人练习
(1)
随笔分类
2022-2023笔记(5)
AWS(1)
Azure (4)
CDH(1)
Flink(1)
GIT(1)
java学习(2)
Mysql(1)
pandas(8)
PowerBI (1)
python(4)
python 时间(3)
Sina(1)
SPARK(4)
sql/hivesql(13)
笔记: 大数据 -- 基础(10)
国内镜像源(1)
面试相关(1)
爬虫(2)
其他(1)
数据库相关(1)
英语学习笔记(1)
邮件自动化(2)
正则表达式(1)
随笔档案
2024年2月(1)
2023年8月(6)
2023年7月(2)
2023年4月(1)
2023年2月(1)
2023年1月(1)
2022年11月(2)
2022年10月(3)
2022年9月(4)
2022年8月(6)
2022年7月(8)
2022年6月(6)
2022年5月(1)
2022年4月(2)
2022年3月(3)
2022年2月(3)
2022年1月(2)
2021年10月(2)
2021年4月(12)
文章分类
python技巧(1)
商务英语(3)
邮件代码(1)
GIT 命令
git 撤回
手动添加Git Bash Here到右键菜单(超详细)
Github创建个人访问令牌教程
GIT命令--官网中文版
解决 Failed to connect to github.com port 443:connection timed out
解决错误: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.git
Hive - SQL
SQL | 窗口函数 row number + partition by 排序
python连接sql server
sql:以小时分组
SQL Server 2016新增:string_split函数(拆分字符串)
Hive 大全
一文学完所有的Hive Sql
【Hive】数据倾斜原因及解决方法汇总
Java
国内几个maven镜像源,国内maven仓库,阿里,华为,腾讯,网易
Maven是什么? Maven的概念+作用+仓库的介绍+常用命令
Kafka
出现SLF4J: Failed to load class “org.slf4j.impl.StaticLoggerBinder“.的解决方法
CDH6.3.2之Kafka配置和命令
Linux命令
Linux命令大全(常用的命令解析)
PySpark
Spark学习知识点总结
Spark 知识点 ( 架构 RDD Task )
大数据技术之Spark(一)
Spark中parallelize函数和makeRDD函数的区别
python 用法技巧
Python datetime replace()方法与示例
Python画图
Streamlit -- 基本概念
streamlit 教程
Shell命令
Conda 常规命令
vim命令大全
怎么解决 Found a swap file by the name “/etc/.profile.swp”
linux网络命令--ping
conda 的 proxy设置
[linux] conda设置清华源
Linux下镜像源配置
sql
SQL server中Merge的用法
大数据开发学习路线
数仓入门路线
Java基础知识总结
机器学习
机器学习分类
mac环境下graphviz安装及使用
简历网站
job592简历网
爬虫
Requests爬虫包及解析工具 xpath、正则、Beautiful Soup
http请求头中Referer的含义和作用
数仓学习
大数据处理技术的总结与分析
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?
Hadoop吐血宝典
Spark学习知识点总结
数据处理pandas技巧
pandas空值处理
pandas的连接函数concat()函数
数据开发面试2
大数据面试题--数仓
数据仓库面试题集锦(附答案和数仓知识体系)
数据开发面试准备
Hive SQL: 累加求和
python中的is和==,深拷贝,浅拷贝区别
Python类的静态方法和类方法区别
Spark中的累加器和广播变量
Airflow简介
Python中的装饰器、迭代器、生成器、推导式、匿名函数和高阶函数
Python闭包
python的单例模式详解
Python之23种设计模式
Python面试题及答案整理(2021年Python面试题大汇总1896道)
Spark常用算子(Spark算子大全)
Spark 小文件处理
拉链表
Hivesql 列转行/行转列
hive的内部表与外部表
kafka简介以及pykafka的基本操作
[Spark]Spark常用的优化方法
Spark启动时的master参数以及Spark的部署方式
zookeeper选举机制(四种)
常见的shell命令
spark优化总结
递归
未分类
如何给函数取一个好的名字
阅读排行榜
1. SQL Server 中的 @、@@、#、## 、N 代表什么,以及SQL系统常用全局变量(3338)
2. python中使用schedule模块定时执行任务(2350)
3. sql server 如何检测一个字符串中是否包含另一个字符串(1630)
4. sql 时间戳(1597)
5. Python标准库urllib中parse.quote()(1376)
推荐排行榜
1. 常见端口号(1)
点击右上角即可分享