摘要:
###一、初识大数据 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 1MB = 1024KB、1GB = 1024MB 1TB = 1024GB、1PB 阅读全文
摘要:
#一、前言 没有这么好看的博客,我都懒得写文章 #二、账号注册与申请我的博客 这里我使用的是博客园平台。 1、注册账号 2、在自己博客园的主页中点击写博 3、点击写博客后,需要申请写博,你就如实填写写博理由,提交后一般等待一两个小时就能通过了。 #三、设置我的博客中的板式 我的博客背景代码是参考另一 阅读全文
摘要:
目录一、时间属性二、窗口1、累计窗口 CUMULATE(time_attr, interval)2、滚动窗口 TUMBLE(time_attr, interval)3、滑动窗口 HOP(time_attr, interval) 一、时间属性 Flink SQL支持以下两种时间属性。实时计算可以基于这 阅读全文
摘要:
内存设置 Flink 总内存,建议在独立部署模式下使用 taskmanager.memory.flink.size jobmanager.memory.flink.size 进程总内存,建议在容器化部署模式(Kubernetes、Yarn 或 Mesos)下使用 taskmanager.memory 阅读全文
摘要:
[Toc] ###一、chatGPT免费试用网址 * http://chat.nxshi.cn - 免费由开发者提供 * http://s.wikll.com - 可直接免费使用,后面需要付费 * https://github.com/LangLangShanDeNanKe/chatgpt - AI 阅读全文
摘要:
目录一、使用spark引擎0、Hive on Spark1、spark资源申请2、spark参数简介3、hive常用调优参数 一、使用spark引擎 0、Hive on Spark https://www.cnblogs.com/lq0310/p/9855245.html 1、spark资源申请 s 阅读全文
摘要:
##一、下载Tez ###1、下载 apache-tez-0.9.2-bin.tar.gz 包 官网:https://dlcdn.apache.org/tez/0.9.2/ ##二、hive配置tez引擎 ###1、解压 apache-tez-0.9.2-bin.tar.gz tar -zxvf a 阅读全文
摘要:
Spark Spark的SparkContext 引用:SparkContext简介 引用:SparkContext原理 Spark的shuffle 引用:Spark Shuffle运行原理 引用:Spark Shuffle三种writer Spark内存管理 引用:Spark 内存管理详解 引用: 阅读全文
摘要:
[Toc] ##一、项目简介 ####1、项目演示地址 http://180.76.242.4:8001/api/index.html#/login **账号密码都是: admin** Git地址:https://gitee.com/Laoguihua/common-das/tree/develop 阅读全文
摘要:
** 差不多200道Sql题,每天刷几题,刷了三四个月吧,也算比较慢的了。** ** 自实习以来,每天都提前半小时到公司,5点半下班经常七点半八点才走。利用这些时间去刷刷题,写写文章,学习一些新技术,当然有时候也会忙项目组的任务。** ** 我们组是数据分析组,自己的岗位是ETL工程师,因为项目组人 阅读全文
摘要:
##一、功能介绍 Lag 分析函数可以在同一次查询中取出同一字段的前N行的数据作为独立的列。 Lead 分析函数可以在同一次查询中取出同一字段的后N行的数据作为独立的列。 ##二、Lead(),Lag()函数语法 lag(exp_str,offset,defval) over(partion by 阅读全文
摘要:
##一、官网教程 https://docs.pingcap.com/zh/tidb/v4.0/quick-start-with-tidb#Linux 部署主机软件和环境要求: 部署需要使用部署主机的 root 用户及密码 部署主机关闭防火墙或者开放 TiDB 集群的节点间所需端口 目前 TiUP 支 阅读全文