上一页 1 2 3 4 5 6 7 8 ··· 14 下一页
摘要: 1. 资源管理介绍 在kubernetes中,所有内容都抽象为资源,用户需要操作资源来管理kubernetes。 Kubernetes本质上就是一个集群系统,用户可以在集群中部署各种服务,所谓的部署服务,其实就是在kubernetes集群中运行一个个的容器,并将指定的程序跑在容器中。 Kuberne 阅读全文
posted @ 2021-03-08 21:37 ZacksTang 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 1. Kubernetes介绍 要了解Kubernetes,首先我们需要了解Container与Orchestration。 Docker Docker的出现是为了解决:部署依赖、以及兼容性、以及繁琐的启动配置问题 Docker使用的是底层的OS(也就是docker中的share kernel)。在 阅读全文
posted @ 2021-02-22 23:20 ZacksTang 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 1. 题目介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返 阅读全文
posted @ 2021-01-05 22:54 ZacksTang 阅读(1222) 评论(0) 推荐(0) 编辑
摘要: 假设检验 假设检验是推论统计学(inferential statistics)的一个分支,也就是对一个较小的、有代表性的数据组(例如样本集合)进行分析与评估,并依此推断出一个大型的数据组(例如人口)的一般性结论。一个典型的例子如:估算一个国家中居民的平均身高(在这个场景下,也就是人口)。在估算时,可 阅读全文
posted @ 2020-11-19 20:55 ZacksTang 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 1. Bike Sharing Analysis 在这章主要介绍如何分析共享单车服务数据,以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外,我们还会引入可视化分析,假设检验、以及时间序列分析的概念与方法。 共享单车是城市里较为快速的通勤方式,了解用户使用共享单车所考虑的因素,对于公司和用 阅读全文
posted @ 2020-11-12 14:50 ZacksTang 阅读(974) 评论(0) 推荐(0) 编辑
摘要: 5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://xxx/data/activity-data/") static.printSchema root |-- Arriva 阅读全文
posted @ 2020-06-12 11:40 ZacksTang 阅读(2653) 评论(0) 推荐(0) 编辑
摘要: 1. 流处理的场景 我们在定义流处理时,会认为它处理的是对无止境的数据集的增量处理。不过对于这个定义来说,很难去与一些实际场景关联起来。在我们讨论流处理的优点与缺点时,先介绍一下流处理的常用场景。 通知与警报:可能流应用最明显的例子就是通知(notification)与警报(alerting)。 实 阅读全文
posted @ 2020-06-09 16:13 ZacksTang 阅读(1537) 评论(0) 推荐(0) 编辑
摘要: Kylin 上手 根据Kylin 官方给出的测试数据,我们实际操作一下 Kylin。 1. 导入 Hive 数据 首先创建一个project,在界面左上角有个“Add Project” 按钮,这里我们创建的Project名为tuto。 进入Model 界面,从 Hive 中导入两张表:kylin_s 阅读全文
posted @ 2020-04-21 21:48 ZacksTang 阅读(1415) 评论(0) 推荐(0) 编辑
摘要: EMR上搭建kylin 1. 启动EMR集群 根据官网说明: http://kylin.apache.org/docs21/install/kylin_aws_emr.html 启动EMR时,若是 hbase 数据存储在 s3 ,则需指定以下配置: [ { "Classification": "hb 阅读全文
posted @ 2020-04-21 21:39 ZacksTang 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 1. 传统大数据分析的问题 在基于Hadoop 生态的传统大数据分析中,主要使用的技术是MPP(Massively Parallel Processing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降,列式存储可以提高读取数据的速率。两者结合可以使得基于 Hadoop 阅读全文
posted @ 2020-04-18 22:31 ZacksTang 阅读(783) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 14 下一页