摘要: 今天是周五主要是进行了web页面的开发,做了大概三个小时左右,晚上又把架构漫谈的读后感给完成了 阅读全文
posted @ 2025-02-23 18:28 皮卡丘和杰尼龟 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 今天是周四,今天上了软件测试以及操作系统,两门比较重要的专业课,初步学习了两节课程的入门内容 阅读全文
posted @ 2025-02-23 18:28 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 今天是周三,上午上了移动应用技术开发,相比于web端的开发,只是转变到了android开发 接着又上了软件体系结构,阅读了王概凯的架构漫谈,初识架构,然后进行了大数据的数据清洗以及整理后的展示的作业。 阅读全文
posted @ 2025-02-23 18:28 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 一、初识架构:原来代码世界也需要"城市规划" 以前总觉得架构就是技术大佬们用的高级框架,像Spring、微服务这些名词听着就让人头大。直到读完王概凯老师说的"架构本质是对复杂系统的切分与整合" ,就像突然打通任督二脉——这不就是我们宿舍大扫除时的分工协作嘛! 记得上学期做课程设计,我们组6个人开发图 阅读全文
posted @ 2025-02-23 18:27 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 整体回顾前24天的学习记录总结问题等 阅读全文
posted @ 2025-02-23 16:29 皮卡丘和杰尼龟 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 复习核心知识体系,整理常见面试题(宽窄依赖/数据倾斜)。在Databricks社区完成认证模拟考试,正确率达86%。 阅读全文
posted @ 2025-02-23 16:27 皮卡丘和杰尼龟 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 综合实战:搭建电商用户画像系统。整合离线批处理和实时推荐模块,设计Lambda架构处理TB级日志数据。 阅读全文
posted @ 2025-02-23 16:27 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 优化Spark SQL执行计划,通过CBO优化器调整join顺序。使用EXPLAIN命令分析查询逻辑,重写低效子查询提升3倍性能。 阅读全文
posted @ 2025-02-23 16:27 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 掌握MLflow模型生命周期管理,注册随机森林模型并部署为REST API。使用Postman测试接口响应时间控制在300ms内。 阅读全文
posted @ 2025-02-23 16:26 皮卡丘和杰尼龟 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 学习Koalas库实现pandas API到Spark的平滑迁移,重构原有数据分析代码。验证百万级数据处理时间从45分钟降至8分钟。 阅读全文
posted @ 2025-02-23 16:25 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 使用GraphFrames分析社交网络关系,计算PageRank和连通组件。调试过程中优化三角计数算法,减少shuffle数据量。 阅读全文
posted @ 2025-02-23 16:24 皮卡丘和杰尼龟 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 研究Delta Lake构建数据湖,实现ACID事务和版本回滚。对比传统Hive数仓,验证SCD2型渐变维处理效率提升65%。回顾前10天的学习记录 阅读全文
posted @ 2025-02-23 16:24 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 学习Structured Streaming处理实时数据,模拟Kafka消息流进行词频统计。掌握watermark机制处理延迟数据,完成窗口操作练习。 阅读全文
posted @ 2025-02-23 16:23 皮卡丘和杰尼龟 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 继续完成搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:22 皮卡丘和杰尼龟 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 综合项目:搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:21 皮卡丘和杰尼龟 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 优化Spark应用性能,调整executor内存和并行度参数。通过UI监控发现stage执行时间缩短40%,学习宽窄依赖优化策略。 阅读全文
posted @ 2025-02-23 16:21 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 学习Spark MLlib管道机制,构建线性回归模型预测房价。特征工程阶段发现数据缺失问题,采用均值填充法处理。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 掌握Spark SQL的DataFrame API,对比pandas操作差异。使用spark.read.json加载电商用户行为数据,完成基础统计指标计算。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 学习RDD弹性分布式数据集原理,完成parallelize()方法创建RDD练习。通过WordCount案例理解map/reduce执行流程,遇到shuffle分区问题。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 掌握pandas的DataFrame核心操作,完成电影评分数据集分析(groupby/merge)。安装Spark3.2并配置Hadoop伪集群环境耗时3小时。 阅读全文
posted @ 2025-02-23 16:19 皮卡丘和杰尼龟 阅读(3) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示