摘要:
今日完成个人项目与团队项目的收尾、测试与总结。个人项目方面,完善代码注释,优化算法性能,编写项目说明文档,实现批处理、实时、预测、图计算模块的完整运行。团队项目方面,整合所有模块,完成端到端测试:从数据采集、Spark 分布式分析,到大模型生成报告、智能体给出决策建议,全流程验证功能完整性。总结 2 阅读全文
posted @ 2026-02-15 16:28
小野alone
阅读(3)
评论(0)
推荐(0)
摘要:
今日进行团队项目的核心开发,完成 Spark 与大模型、智能体的整合。首先学习深度学习基础,理解神经网络的核心原理,为大模型应用铺垫。使用 LangChain 对接 Spark 的分析结果数据,编写提示词,让大模型将结构化的统计数据转化为自然语言分析报告,例如 “某供应商本月采购量占比达 25%,其 阅读全文
posted @ 2026-02-14 14:13
小野alone
阅读(2)
评论(0)
推荐(0)
摘要:
今日启动团队项目的规划,团队项目定位为 “基于 Spark 的智能进销存决策系统”,新增大模型与智能体模块。团队分工:我负责 Spark 生态模块的整合与大模型接口开发,队友负责前端展示与数据库优化。梳理大模型的应用场景:通过大模型解析进销存分析报告,生成自然语言结论;开发智能体,根据销量预测、库存 阅读全文
posted @ 2026-02-13 17:04
小野alone
阅读(2)
评论(0)
推荐(0)
摘要:
今日继续个人项目开发,完成实时模块与预测模块的整合。实时模块基于 Spark Streaming+Kafka,模拟药品销售实时数据写入 Kafka,通过 Direct 方式读取数据,实现实时销量统计与热销药品预警,将实时结果推送到前端页面(简易 Flask 页面)。预测模块集成 MLlib 的线性回 阅读全文
posted @ 2026-02-12 17:53
小野alone
阅读(1)
评论(0)
推荐(0)
摘要:
今日开展个人项目的开发工作,核心完成数据采集与批处理模块的搭建。首先编写 Python 脚本,从 MySQL 读取医院进销存原始数据,写入 HDFS 供 Spark 批处理使用。基于之前学习的 Spark SQL 知识,开发批处理核心功能:实现药品进销总量统计、供应商采购占比分析、滞销药品筛选。使用 阅读全文
posted @ 2026-02-11 16:47
小野alone
阅读(2)
评论(0)
推荐(0)
摘要:
今日启动个人项目的规划与需求分析,项目定位为 “基于 Spark 的医院进销存数据分析系统”。首先梳理项目核心需求:实现进销存数据的批处理统计、实时销量监控、药品销量预测、供应商重要度分析。划分项目模块:数据采集模块、Spark 批处理模块、Spark Streaming 实时模块、MLlib 预测 阅读全文
posted @ 2026-02-09 16:29
小野alone
阅读(2)
评论(0)
推荐(0)
摘要:
今日深耕 Spark GraphX 的核心算法,聚焦图的遍历与连通分量分析。图的遍历算法重点学习 PageRank,它能衡量顶点的重要性,将其应用于进销存供应链,计算供应商的重要度,优先维护核心供应商关系。掌握了PageRank算法的调用方法,设置迭代次数完成计算。同时学习了连通分量算法,识别供应链 阅读全文
posted @ 2026-02-07 16:29
小野alone
阅读(4)
评论(0)
推荐(0)
摘要:
今日开启 Spark GraphX 图计算的学习,理解图计算的核心概念与应用场景。GraphX 基于 RDD 实现,核心数据结构是Graph,由顶点(VertexRDD)和边(EdgeRDD)组成。首先学习图的创建方式,从 RDD 创建顶点(药品、供应商为顶点)和边(采购、供应关系为边),构建医院进 阅读全文
posted @ 2026-02-06 16:54
小野alone
阅读(2)
评论(0)
推荐(0)
摘要:
今日学习 Spark MLlib 的回归与聚类算法,适配进销存的预测与分类需求。回归算法选择线性回归,以药品的历史销量、季节因素、促销活动为特征,预测未来月度销量,掌握LinearRegression的参数设置与模型训练。聚类算法选择 K-Means,根据药品的销量、利润、周转率,将药品分为高价值、 阅读全文
posted @ 2026-02-03 20:49
小野alone
阅读(3)
评论(0)
推荐(0)
浙公网安备 33010602011771号