02 2025 档案
摘要:今天是周五主要是进行了web页面的开发,做了大概三个小时左右,晚上又把架构漫谈的读后感给完成了
阅读全文
摘要:今天是周四,今天上了软件测试以及操作系统,两门比较重要的专业课,初步学习了两节课程的入门内容
阅读全文
摘要:今天是周三,上午上了移动应用技术开发,相比于web端的开发,只是转变到了android开发 接着又上了软件体系结构,阅读了王概凯的架构漫谈,初识架构,然后进行了大数据的数据清洗以及整理后的展示的作业。
阅读全文
摘要:一、初识架构:原来代码世界也需要"城市规划" 以前总觉得架构就是技术大佬们用的高级框架,像Spring、微服务这些名词听着就让人头大。直到读完王概凯老师说的"架构本质是对复杂系统的切分与整合" ,就像突然打通任督二脉——这不就是我们宿舍大扫除时的分工协作嘛! 记得上学期做课程设计,我们组6个人开发图
阅读全文
摘要:复习核心知识体系,整理常见面试题(宽窄依赖/数据倾斜)。在Databricks社区完成认证模拟考试,正确率达86%。
阅读全文
摘要:综合实战:搭建电商用户画像系统。整合离线批处理和实时推荐模块,设计Lambda架构处理TB级日志数据。
阅读全文
摘要:优化Spark SQL执行计划,通过CBO优化器调整join顺序。使用EXPLAIN命令分析查询逻辑,重写低效子查询提升3倍性能。
阅读全文
摘要:掌握MLflow模型生命周期管理,注册随机森林模型并部署为REST API。使用Postman测试接口响应时间控制在300ms内。
阅读全文
摘要:学习Koalas库实现pandas API到Spark的平滑迁移,重构原有数据分析代码。验证百万级数据处理时间从45分钟降至8分钟。
阅读全文
摘要:使用GraphFrames分析社交网络关系,计算PageRank和连通组件。调试过程中优化三角计数算法,减少shuffle数据量。
阅读全文
摘要:研究Delta Lake构建数据湖,实现ACID事务和版本回滚。对比传统Hive数仓,验证SCD2型渐变维处理效率提升65%。回顾前10天的学习记录
阅读全文
摘要:学习Structured Streaming处理实时数据,模拟Kafka消息流进行词频统计。掌握watermark机制处理延迟数据,完成窗口操作练习。
阅读全文
摘要:继续完成搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。
阅读全文
摘要:综合项目:搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。
阅读全文
摘要:优化Spark应用性能,调整executor内存和并行度参数。通过UI监控发现stage执行时间缩短40%,学习宽窄依赖优化策略。
阅读全文
摘要:学习Spark MLlib管道机制,构建线性回归模型预测房价。特征工程阶段发现数据缺失问题,采用均值填充法处理。
阅读全文
摘要:掌握Spark SQL的DataFrame API,对比pandas操作差异。使用spark.read.json加载电商用户行为数据,完成基础统计指标计算。
阅读全文
摘要:学习RDD弹性分布式数据集原理,完成parallelize()方法创建RDD练习。通过WordCount案例理解map/reduce执行流程,遇到shuffle分区问题。
阅读全文
摘要:掌握pandas的DataFrame核心操作,完成电影评分数据集分析(groupby/merge)。安装Spark3.2并配置Hadoop伪集群环境耗时3小时。
阅读全文
摘要:学习numpy数组操作,完成矩阵转置/归一化练习。使用matplotlib绘制正弦/余弦曲线图,初步理解数据可视化原理。
阅读全文
摘要:面向对象编程实践,创建Student类并实现继承体系。通过PyMySQL连接本地MySQL数据库,遇到连接超时问题通过修改wait_timeout参数解决。
阅读全文
摘要:深入理解函数定义与参数传递,学习lambda表达式。完成装饰器原理推导笔记,在LeetCode刷3道简单算法题(两数之和/反转字符串)。
阅读全文
摘要:安装Anaconda并配置Python3.9环境,完成Jupyter Notebook基础操作。通过官方文档学习变量类型(int/str/list)和条件判断语句,编写BMI计算器小程序。
阅读全文
摘要:今天学习python的掌握列表、元组、字典、集合的操作 练习:用字典实现学生成绩管理系统,尝试连接数据库
阅读全文