摘要:
实例:分组TopN 有50W个店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop。 数据集:topn.csv user_id,shop u1,a u2,b u1,b u1,a u3,c u 阅读全文
摘要:
需求: 统计每个用户的累计访问次数。 要求使用SQL统计出每个用户的累积访问次数,如下表所示: | 用户id | 月份 | 小计 | 累积 | | : | : | : | : | | u01 | 2021-01 | 11 | 11 | | u01 | 2021-02 | 12 | 23 | | u0 阅读全文
摘要:
over窗口函数的应用参见我上一篇博客:https://www.cnblogs.com/wanpi/p/14969000.html rows between函数: SQL语句中的rows between unbounded preceding and unbounded following ,其中: 阅读全文
摘要:
一、over(窗口函数) 指的是对多行数据进行处理返回普通列和聚合列的过程 详细语法: 窗口函数sql语法:窗口函数名()over (partition by 划分窗口字段 order by 窗口内的排序规则 rows between (start,end)) 窗口函数分类: 聚合窗口函数 aggr 阅读全文
摘要:
Spark SQL 是Spark的核心模块,主要用以对结构化的数据(流数据&批数据)进行处理。Spark SQL依然是建立在RDD之上的ETL工具(数据源到数据仓库的一系列处理过程)。 学习官网:http://spark.apache.org/docs/latest/sql-programming- 阅读全文
摘要:
PageRank让链接来"投票" 。 一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有 阅读全文
摘要:
有时需要自己模拟生成数据,Python是最合适的工具了。下面是python中的random模块,它用于随机数生成的例子。 (1) 随机小数 import random print(random.random()) #随机大于0 且小于1 之间的小数 #结果 #0.6897784315368002 p 阅读全文
摘要:
最近需要学习k8s源码,为了阅读源码的方便,打算在Windows下使用GoLand配置k8s源码阅读环境。 1.开发环境goland的下载与安装 从 Goland 的官网下载对应版本的 Goland 的安装包:(本教程使用的版本是2019.2.3),官网下载地址:https://www.jetbra 阅读全文
摘要:
1.调度过程 K8S的scheduler的主要作用是将用户申请的pods调度到合适的node节点上。具体的来说,就是它通过监听API server提供的watch等接口,获取到未调度的pods和node的相关信息,通过对node的筛选,选择出最合适的也就是优先级最高的node节点,将其与pods进行 阅读全文
摘要:
相信很多小伙伴都遇到过访问不了GitHub问题,一直加载不出来,漫长等待时间后出现无法加载的提示,心情爆炸!今天就彻底解决这个问题。下面的IP地址,小伙伴们一定不要按照我的来,因为这个IP过一段好像会改变,大家按照我给的网址一步步操作就可以了。 一、确定ip进入网址 https://github.c 阅读全文