摘要: 一、Spark简介 1、基本介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,而 Hadoop是基于磁盘。因此S 阅读全文
posted @ 2022-05-12 16:08 li-shan 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop简介 2003 年 Google 发表三篇论文也就是所谓的“三架马车”,分别是 《The Google File System》 《MapReduce: Simplified Data Processing on Large Clusters》 《Bigtable: A Distri 阅读全文
posted @ 2022-05-12 16:01 li-shan 阅读(194) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-12-12 20:15 li-shan 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 老版自适应 ​ 老版的finereport制作报表比较麻烦,原理是将body设置为自适应布局,缩放方式通常选择横向自适应,在body中拖入绝对块固定位置然后在绝对块上拖入报表块制作自己开发的报表内容,但是会存在一个问题就是 之前明明做好的报表下次打开之前的布局就变了​!​ 🌿(一种植物) 新版自适 阅读全文
posted @ 2021-09-15 17:47 li-shan 阅读(2391) 评论(1) 推荐(0) 编辑
摘要: 一、指标口径问题 ​ 在电商业务中,新用户销售额是考核市场活动拉新效果的重要指标。马漂亮(化名)是市场部门的数据分析师,某一天,她要给 CEO 提供一份数据报告,报告中有一项指标是“新用户销售额”。孙美丽(化名)是会员中心的运营,她每天都会给 CEO 提供每日的新用户销售额数据。 ​ 结果有一天,C 阅读全文
posted @ 2021-09-03 11:48 li-shan 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 学习资料(其中很多随笔内容都借鉴以下资料) 1.大数据学习路线(也是我最初的大数据技术栈的学习路线) https://zhuanlan.zhihu.com/p/92751450 2.数据中台 https://time.geekbang.org/column/intro/100049101 阅读全文
posted @ 2021-08-24 18:58 li-shan 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 一、数仓的前世今生 起源 ​ 商业智能(Business Intelligence)诞生在上个世纪 90 年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。这些都离不开大量的数据分析。而数据分析需要聚合多个业务系统的数据,比如需要集成交易系统的数据,需要集成仓储系统的数据等等,同时需要 阅读全文
posted @ 2021-08-23 16:37 li-shan 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 需求:自己封装map,groupBy,sortBy方法! package WordCount import scala.collection.mutable import scala.collection.mutable.ListBuffer import scala.io.StdIn //需求:m 阅读全文
posted @ 2020-06-16 14:43 li-shan 阅读(445) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-05-19 16:25 li-shan 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 一个模式匹配包含了一系列备选项,每个都开始于关键字 case。每个备选项都包含了一个模式及一到多个表达式。箭头符号 => 隔开了模式和表达式。 1. package scalaprogram.May07 import scala.util.Random //模式匹配 升级版的switch语句 obj 阅读全文
posted @ 2020-05-12 19:14 li-shan 阅读(140) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示