摘要: 1. 配置Master vi $SPARK_HOME/conf/spark-env.sh export SPARK_MASTER_HOST=192.168.130.126 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export 阅读全文
posted @ 2024-10-18 08:49 ZH谢工 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 1. 下载VMWare, 安装CentOS9虚拟机 2. 配置用户,创建目录 2.1. 以管理员身份登录,创建Spark用户给Spark使用 sudo adduser sparkuser 2.2. 修改新用户密码 (123456) sudo passwd sparkuser 2.3. 给新用户Spa 阅读全文
posted @ 2024-10-16 19:00 ZH谢工 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 摘自 - 左耳听风 特长。首先你要找得到自己特长。你要认识自己的特长,找到自己的天赋,找到你在DNA里比别人强的东西,就拿你的DNA跟别人竞争就好了。所以你要找到自己可以干成的事,找到别人找你请教的事,你身边人找你请教就是说明你有特长。这是找到自己特长非常非常重要,扬长避短。 兴趣。如果你没有找到自 阅读全文
posted @ 2023-12-25 13:46 ZH谢工 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-08-22 13:49 ZH谢工 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 一 大数据平台建设背景 笔者所在公司,经过多年的信息化建设,关键的业务都已经实施了IT系统,例如MES, EAP, ERP等。 但是数据的使用还停留在初级阶段,几乎所有生产相关的KP报表都是手工创建。管理层认为,大量的历史数据存储需要付出成本,但是没有去挖掘数据背后的价值,对于公司来说,数据分析是个 阅读全文
posted @ 2023-03-09 14:19 ZH谢工 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 1. 需求项 分析维度:时间维度(粒度:年,月,周,日,时 等),产品维度,机器维度 分析值KPI: 数据来源: 公式计算: 展示形式: 穿透分析:横向穿透,纵向穿透 2. 需求格式 可以考虑标准化报表编号,便于以后的管理。例如 BE 的标准报表可以按照一下规则编号: R101, R102 本地报表 阅读全文
posted @ 2023-03-09 14:17 ZH谢工 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1. 质量KPI CA (Capability of Accuracy): 平均值距离期望中心值的距离,值越大,说明平均值越接近期望中心值。 Ca=(X-U)/(T/2) CP (Capability of precision):衡量参数值分散还是集中,值越大,说明测量得到的参数值越集中。 CPK 阅读全文
posted @ 2023-02-27 17:28 ZH谢工 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1. 数据自动化 虽然现在信息化都已经实现了大部分数据都有应用系统,但是仍旧有大量的外部数据,例如维护在Excel里,这些数据都是手工维护,缺乏校验,没有按时定期更新。这些数据需要花费大量时间进行处理。 2. 报表和数据可视化 3. 数据和业务融合 数据分析结果反馈回业务系统,作为业务系统关键输入。 阅读全文
posted @ 2023-02-22 15:48 ZH谢工 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 公司内部的大数据架构师提出的架构中,分为两层。 第一层叫数据湖,基本原则按照数据源格式存储所有数据。第二层叫Data Hub,存储加工处理后的数据。供应用层是应用。 数据湖内部又可以分为三个层: 第一层: 原始数据层,这个层是个临时数据存储层,只是临时存储从数据源采集的数据。转入下一层后,就被删除了 阅读全文
posted @ 2021-12-12 21:11 ZH谢工 阅读(3784) 评论(0) 推荐(0) 编辑
摘要: 问题: 生产过程数据主要存放在MES系统中,例如订单的最新生产情况,产量数据,问题Lot情况等。对于大数据分析,业务部门希望可以基于及时的数据进行分析展示。 但是MES系统的数据不仅包含仅有insert的历史数据表,同时有很多包含Insert/Update/Delete的事务表。如何将这些数据加载到 阅读全文
posted @ 2021-11-25 11:25 ZH谢工 阅读(125) 评论(0) 推荐(0) 编辑