摘要:
安装前准备:安装dnf # 为了安装 DNF ,您必须先安装并启用 epel-release 依赖。$ yum install epel-release -y$ yum install dnf 安装初始文件 # 安装 w3m, curl , jq 和 git # 在Arch Linux和Manjar 阅读全文
摘要:
背景: 1.因为业务系统中存在更新表数据的情况,且总数据量不大,数仓ODS层中采用了对事实表进行拉链的操作。 2.现在需要在ODS层中对多张拉链表进行关联,为了以后追数方便,需要先给出一个全量更新的脚本。 设计两个表结构,暂时称为“事实表(odstr)”和“维度表(odsdim)”: drop ta 阅读全文
摘要:
先看 DENSE_RANK() 和 RANK() 函数用处: DENSE_RANK() : 排序,不跳过重复位次。 RANK() : 排序,跳过重复位次。 create table test_order( name varchar2(100), -- 名称 id int -- 加入编号 ); ins 阅读全文
摘要:
表:Stadium + + + | Column Name | Type | + + + | id | int | | visit_date | date | | people | int | + + + visit_date 是表的主键 每日人流量信息被记录在这三列信息中:序号 (id)、日期 ( 阅读全文
摘要:
计算同比 如何计算同比、保存同比结果、查看同比计算的公式及解释、可能犯错原因 1)将年作为维度计算同比 1.在列中选择日期字段,一定要使用日期格式的。 将需要计算同比的字段放入行中。 2.行中选择【年度同比增长】,表格中的标签也可以直接通过上面状态栏(红框部分)直接点击显示。 3.可将原有字段再拖一 阅读全文
摘要:
create table dm_channel_acct( --渠道账户开户表 cust_no varchar(20), --客户号 channel_account varchar(20), --渠道账号 sing_org varchar(10), --开户机构 sing_date varchar( 阅读全文
摘要:
开发调优: 避免创建重复的RDD 尽可能服用一个RDD 对多次使用的RDD进行持久化:调用cache()和persist() 持久化级别含义解释 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执 阅读全文
摘要:
源码包: org.apache.spark.sql.Dataset.scala 数据: stu.json{"stuid":"19001","classid":"1002","name": "Michael", "age": 12}{"stuid":"","classid":"1001","name" 阅读全文
[Spark] DataFram读取JSON文件异常 出现 Since Spark 2.3, the queries from raw JSON/CSV files are disallowed...
摘要:
在IDEA中运行Scala脚本访问执行SparkSQL时: df.show() 出现报错信息: 1 19/12/06 14:26:17 INFO SparkContext: Created broadcast 2 from show at Student.scala:16 2 Exception i 阅读全文
摘要:
代码优化的目标: 减小代码的体积 提高代码的运行效率 代码优化细节: 尽量指定类、方法的final修饰符带有final修饰符的类是不可派生的。在Java核心API中,有很多应用final的例子,例如java.lang.String,整个类都是final的。为类指定final修饰符可以让方法不可以被重 阅读全文