摘要:
排产系统: 第一视角: 关注订单各项完成情况,把系统分为三部分,预排产(作为判断排产合理性的工具)、正式排产(关注排产时间,查看各种拖期问题)、实时监控(关注资源的变更,比如人员请假、设备损坏等),注重生产组织框架。 具体实施: 1、完善总览表,加上汇总统计,统计拖期订单数量,再排数量等,用各种颜色 阅读全文
摘要:
目前甘特图样式 目前更新到支持显示订单完成进度,支持下钻四级显示信息。 重要代码 (一)颜色部分 1 //进度条颜色 2 gantt.templates.task_text = function (start, end, task) { 3 let parentState = getColorFor 阅读全文
摘要:
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。 什么是架构? 根据要解决的问题,对目标系统的边界进行界定。 并对目标系统按某个原则的进行切分。切分的原则,要便于不同的角色,对 阅读全文
摘要:
1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存 阅读全文
摘要:
案例一:计算网页访问量前三名 源数据大致预览: 编写Scala代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 4 阅读全文
摘要:
1)mapPartionWithIndex(func) 设置分区,并且查看每个分区中存放的元素 查看每个分区中元素 需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文
摘要:
1. Spark基本API解读 首先我们写一段简单的进行单词统计的代码,考察其中出现的API,然后做出整理: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apa 阅读全文
摘要:
案例一:Spark版的WordCount程序 Step1:创建一个Maven工程。 编写Pom文件: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi 阅读全文
摘要:
1:什么是RDD? RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的 数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点:具有数据流模型的特点 自动容错 位置感知调度 可伸缩性 R 阅读全文
摘要:
做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理。 RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种数据集合,它的核心就是迭代器。 创建方式 有两种创建RDD的方式: 在驱动程序中并行化现有集合 引用 阅读全文