小野alone - 博客园

2026年2月

摘要：今日完成个人项目与团队项目的收尾、测试与总结。个人项目方面，完善代码注释，优化算法性能，编写项目说明文档，实现批处理、实时、预测、图计算模块的完整运行。团队项目方面，整合所有模块，完成端到端测试：从数据采集、Spark 分布式分析，到大模型生成报告、智能体给出决策建议，全流程验证功能完整性。总结 2 阅读全文

posted @ 2026-02-15 16:28 小野alone 阅读(3) 评论(0) 推荐(0)

2.14假期记录

摘要：今日进行团队项目的核心开发，完成 Spark 与大模型、智能体的整合。首先学习深度学习基础，理解神经网络的核心原理，为大模型应用铺垫。使用 LangChain 对接 Spark 的分析结果数据，编写提示词，让大模型将结构化的统计数据转化为自然语言分析报告，例如 “某供应商本月采购量占比达 25%，其阅读全文

posted @ 2026-02-14 14:13 小野alone 阅读(2) 评论(0) 推荐(0)

2.13假期记录

摘要：今日启动团队项目的规划，团队项目定位为 “基于 Spark 的智能进销存决策系统”，新增大模型与智能体模块。团队分工：我负责 Spark 生态模块的整合与大模型接口开发，队友负责前端展示与数据库优化。梳理大模型的应用场景：通过大模型解析进销存分析报告，生成自然语言结论；开发智能体，根据销量预测、库存阅读全文

posted @ 2026-02-13 17:04 小野alone 阅读(2) 评论(0) 推荐(0)

2.12假期记录

摘要：今日继续个人项目开发，完成实时模块与预测模块的整合。实时模块基于 Spark Streaming+Kafka，模拟药品销售实时数据写入 Kafka，通过 Direct 方式读取数据，实现实时销量统计与热销药品预警，将实时结果推送到前端页面（简易 Flask 页面）。预测模块集成 MLlib 的线性回阅读全文

posted @ 2026-02-12 17:53 小野alone 阅读(1) 评论(0) 推荐(0)

2.11假期记录

摘要：今日开展个人项目的开发工作，核心完成数据采集与批处理模块的搭建。首先编写 Python 脚本，从 MySQL 读取医院进销存原始数据，写入 HDFS 供 Spark 批处理使用。基于之前学习的 Spark SQL 知识，开发批处理核心功能：实现药品进销总量统计、供应商采购占比分析、滞销药品筛选。使用阅读全文

posted @ 2026-02-11 16:47 小野alone 阅读(2) 评论(0) 推荐(0)

2.9假期记录

摘要：今日启动个人项目的规划与需求分析，项目定位为 “基于 Spark 的医院进销存数据分析系统”。首先梳理项目核心需求：实现进销存数据的批处理统计、实时销量监控、药品销量预测、供应商重要度分析。划分项目模块：数据采集模块、Spark 批处理模块、Spark Streaming 实时模块、MLlib 预测阅读全文

posted @ 2026-02-09 16:29 小野alone 阅读(2) 评论(0) 推荐(0)

2.7假期记录

摘要：今日深耕 Spark GraphX 的核心算法，聚焦图的遍历与连通分量分析。图的遍历算法重点学习 PageRank，它能衡量顶点的重要性，将其应用于进销存供应链，计算供应商的重要度，优先维护核心供应商关系。掌握了PageRank算法的调用方法，设置迭代次数完成计算。同时学习了连通分量算法，识别供应链阅读全文

posted @ 2026-02-07 16:29 小野alone 阅读(4) 评论(0) 推荐(0)

2.6假期记录

摘要：今日开启 Spark GraphX 图计算的学习，理解图计算的核心概念与应用场景。GraphX 基于 RDD 实现，核心数据结构是Graph，由顶点（VertexRDD）和边（EdgeRDD）组成。首先学习图的创建方式，从 RDD 创建顶点（药品、供应商为顶点）和边（采购、供应关系为边），构建医院进阅读全文

posted @ 2026-02-06 16:54 小野alone 阅读(2) 评论(0) 推荐(0)

2.3假期记录

摘要：今日学习 Spark MLlib 的回归与聚类算法，适配进销存的预测与分类需求。回归算法选择线性回归，以药品的历史销量、季节因素、促销活动为特征，预测未来月度销量，掌握LinearRegression的参数设置与模型训练。聚类算法选择 K-Means，根据药品的销量、利润、周转率，将药品分为高价值、阅读全文

posted @ 2026-02-03 20:49 小野alone 阅读(3) 评论(0) 推荐(0)

2026年1月

1.31假期记录

摘要：今日深入 Spark MLlib 的分类算法，重点学习逻辑回归与决策树分类。逻辑回归适用于二分类问题，针对医院进销存场景，将药品分为 “畅销” 和 “非畅销” 两类，以采购成本、单价、上架时长为特征，训练逻辑回归模型。掌握了模型的训练（fit）、预测（transform）流程，以及用BinaryCl 阅读全文

posted @ 2026-01-31 20:33 小野alone 阅读(5) 评论(0) 推荐(0)

公告