展开
拓展 关闭
订阅号推广码
GitHub
视频
公告栏 关闭

大数据学习笔记

数据分析

excel

1 2 3 4 5
excel常用操作 excel常用函数 箱型图 相关系数 excel图表
excel知识碎片 统计分析函数 文本处理函数 数值运算函数 逻辑判断函数
日期计算函数 匹配查找函数
查看详情
  • 知识碎片
1 2 3 4 5
word使用 ppt使用

analyse

1 2 3 4 5
NumPy基本使用(一) NumPy基本使用(二) Pandas基本使用(一) Pandas基础使用(二):填充/空值处理/排序/替换/连接 Pandas基础使用(三):合并/apply函数/筛选/删除
Pandas基本使用(四):算数运算/分层索引/分箱/合并/拆分 Pandas基本使用(五):字符串函数/分组聚合 Pandas基本使用(六):describe函数/分组/数据透视表/环比 Matplotlib基本使用(一) Matplotlib基本使用(二)
seaborn基础使用(一) seaborn基础使用(二)
查看详情
  • 知识碎片
1 2 3 4 5
seaborn基本使用(一) 聚类算法(一) 聚类算法(二) seaborn基本使用(二) 肘部法则确认最佳聚类数
DecisionTree模型 决策树波士顿地区房屋价格 预测共享单车使用量 交叉验证-准确率 混淆矩阵分类报告
随机森林模型 爬取数据 linux安装mongodb python操作mongodb(一) python操作mongodb(二)
python操作echarts 分析 环境使用(onemake) sqoop导入oracle数据到hive python操作redis
datagrip连接redis 脚本开发思路 构建ods层,使用脚本将数据导出到hdfs hadoop常见问题 使用shell命令将hdfs导入hive构建ods层
工具包使用 工具包使用2 方式2:使用python将oracle数据导入hive excel数据分析思路 excel项目实战
python数据分析 回归分析 RFM模型

可视化工具

finebi

1 2 3 4 5
FineBI安装 FineBI使用 FineBI分析案例(一) FineBI分析案例(二) FineBI分析案例(三)

tableau

1 2 3 4 5
Tableau安装

数据采集

hadoop

1 2 3 4 5
hadoop使用

hive

1 2 3 4 5
hive使用 datagrip连接hive

hbase

1 2 3 4 5
hbase基本使用

数据计算

spark

查看详情
  • 知识碎片
1 2 3 4 5
centos7安装使用Anaconda3 linux安装spark spark常见错误 spark基本使用 Anaconda3安装使用
安装hadoop hive安装 hive读取json数据 start-dfs.sh启动hadoop,jps没显示 DBeaver连接hive
centos使用conda命令 窗口函数

数据管理

warehouse

查看详情
  • 数仓分析:搭建环境
1 2 3 4 5
linux搭建集群 Linux安装jdk、mysql hadoop单机版安装 安装hadoop集群 安装zookeeper集群
安装hbase集群 linux安装Flume zookeeper、kafka单机版安装 安装Kafka集群 linux安装Sqoop
使用sqoop一直卡在:mapreduce.Job: Running job: job_1703173956074_0001 hive单机版安装 安装hive集群 linux安装scala、spark
  • 数仓分析:数据采集
1 2 3 4 5
数仓分析概述 Linux安装DataX和Maxwell 数据采集 使用datax将全量数据采集到hdfs hadoop启动时报错process information unavailable
hadoop集群常见错误 DataX使用常见错误 DataX配置文件生成脚本 DataX批量执行生成的json脚本 使用maxwell采集数据到kafka
kafka常见问题 maxwell常见问题 使用flume将kafka数据采集到hdfs 报错:org.apache.hadoop.hbase.util.GetJavaProperty 使用flume采集日志到hdfs
flume常见问题 反注释 增量表首日全量同步
  • 数仓分析:构建数仓
1 2 3 4 5
ODS简介 hdfs日志数据导入hive 将hdfs业务数据全量同步到hive 将hdfs业务数据增量同步到hive 将hdfs中txt后缀json文件同步到hive
在hive中创建业务表对应的全量表和增量表 编写数据装载脚本批量导入数据 DIM简介 Hive on Spark hive常见错误
web访问hive 章节维度表 课程维度表 时间维度表 用户维度表
数据装载脚本 创建维度表 DWD简介 交易域加购事务事实表 hive常见问题
交易域加购周期快照事实表 交易域试听下单累积快照事实表 创建事实表 创建事实表2 数据装载脚本
DWS简介 交易域用户粒度用户加购最近1日汇总表 交易域用户粒度用户加购最近n日汇总表 交易域用户粒度下单历史至今汇总表 创建汇总表
创建汇总表2 数据装载脚本 ADS简介 构建ADS层 构建ADS层2
装载数据时报错:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' 编写数据装载脚本
  • 数仓分析:可视化、导出、任务调度
1 2 3 4 5
可视化Echarts 安装Miniconda 可视化Superset DataX导出ADS层数据 用户变动统计
同步用户留存率表 hadoop常见问题 datax导出数据到mysql报错:配置信息错误. 您提供的配置信息不是合法的JSON格式 datax配置文件生成脚本 编写每日导出脚本
DolphinScheduler安装 定时任务
posted @ 2023-10-15 13:20  DogLeftover  阅读(78)  评论(0编辑  收藏  举报