1
上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: HIVE 优化: 场景1. 分组聚合group by 导致数据倾斜 -- map端聚合 : aggr=true 会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量 指令: Set hive.groupby.mapaggr.checkinterva 阅读全文
posted @ 2024-07-10 12:29 萌哥-爱学习 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 1. SPARK架构 我们往往采用Spark On Yarn模式, 那么 无需spark开启 master和slaver进程分别由yarn的 Rourcemanager和Nodemanager担当.Driver 角色运行在yarn容器中或者客户端.资源管理由resourceManger承担. 任务计 阅读全文
posted @ 2024-07-09 13:49 萌哥-爱学习 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 主键可以分为 业务主键和代理主键.业务主键(身份证号码)代理主键surrogate (无实际意义自动编号) 阅读全文
posted @ 2024-07-07 17:49 萌哥-爱学习 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 它的统一分析平台旨在在孤立的数据存储系统之间建立数字管道,并帮助工程师和数据科学家更好地沟通。 https://blog.csdn.net/ZGL_cyy/article/details/130332720 阅读全文
posted @ 2024-07-01 22:55 萌哥-爱学习 阅读(4) 评论(0) 推荐(0) 编辑
摘要: s 阅读全文
posted @ 2024-06-26 21:51 萌哥-爱学习 阅读(2) 评论(0) 推荐(0) 编辑
摘要: import os import time log_dir = "/var/log/" def delete_expired_logs(): current_time = time.localtime() print(current_time.tm_hour) if current_time.tm_ 阅读全文
posted @ 2024-03-11 13:52 萌哥-爱学习 阅读(26) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/Jerry00713/article/details/113914587?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171012381616800197043628%2522%252C% 阅读全文
posted @ 2024-03-11 10:28 萌哥-爱学习 阅读(5) 评论(0) 推荐(0) 编辑
摘要: https://m.y2mate.tools/zh-cn/youtube-to-mp4 阅读全文
posted @ 2024-03-03 15:17 萌哥-爱学习 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 本文章向大家介绍Hive insert into 竟然覆盖了原来的数据,主要包括Hive insert into 竟然覆盖了原来的数据使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。 问题:在使用hive的insert into 往表里插入数据时 ,却发 阅读全文
posted @ 2024-02-20 17:56 萌哥-爱学习 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 分区表数据加载--动态分区 往hive分区表中插入加载数据时,如果需要创建的分区很多,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 所谓动态分区指的是分区的字段值是基于查询结果自动推 阅读全文
posted @ 2024-02-18 19:50 萌哥-爱学习 阅读(169) 评论(0) 推荐(0) 编辑
摘要: Hadoop常用端口 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : 高可用模式ZKFC端口 19888: 阅读全文
posted @ 2024-02-17 20:43 萌哥-爱学习 阅读(223) 评论(0) 推荐(0) 编辑
摘要: yarn application查看任务 yarn application -list (2)根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING 阅读全文
posted @ 2024-02-09 22:12 萌哥-爱学习 阅读(17) 评论(0) 推荐(0) 编辑
摘要: import randomdata = {"name": "tom", "age": 18}# 复制100次copies = [data.copy() for _ in range(11)]aa='dddddddddd'# 随机生成name和agea= '{"index":{"_index":"du 阅读全文
posted @ 2024-01-28 20:57 萌哥-爱学习 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 跨集群ES数据迁移:1. 设置白名单在目标ES库(新库)reindex.remote.whitelist: ["192.168.9.201:9200"][或者下面参数:reindex.remote.whitelist: "10.*:*"http.cors.enabled: truehttp.cors 阅读全文
posted @ 2024-01-28 20:23 萌哥-爱学习 阅读(255) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qianshangding0708/article/details/50381966 Hive 引入第三方Jar包的方式 https://blog.csdn.net/weixin_40579109/article/details/112614334 查看加 阅读全文
posted @ 2024-01-26 15:28 萌哥-爱学习 阅读(269) 评论(0) 推荐(0) 编辑
摘要: ES版本为: 8.11.4 JAVA 版本用 11版本. 务必!!!!!!!!【默认也行,不必11】 [root@es1 bin]# pwd/opt/elasticsearch-8.11.4/bin 集群配置文件 不带密码的 : ES1 [root@es8 config]# vi elasticse 阅读全文
posted @ 2024-01-22 14:28 萌哥-爱学习 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 1. HIVESERVER2 的日志: /var/log/hive -rwxrwxrwx 1 hive hadoop 479 1月 14 18:20 hive.err -rwxrwxrwx 1 hive hadoop 2438 1月 13 20:27 hivemetastore-gc-2024-01 阅读全文
posted @ 2024-01-21 17:07 萌哥-爱学习 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-10-21 11:45 萌哥-爱学习 阅读(7) 评论(0) 推荐(0) 编辑
摘要: SELECT student_temp.id ,coalesce(student_temp.age,student.age) as age ,student_temp.name ,coalesce(student_temp.dt,student.dt) as dt FROM student_temp 阅读全文
posted @ 2023-09-24 12:29 萌哥-爱学习 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 数仓知识07:数据增量更新的几种方式 1、增量更新的几种方式 增量更新的本质,其实是获取源表中数据变化的情况(增、删、改),然后将源表中发生的变化同步至目标表中。 不同的方式,获取源表中数据变化的情况不一样,受技术的限制、表结构的限制,某些方式可能无法获取到完整的数据变化情况,因此只能适用于特定的场 阅读全文
posted @ 2023-07-18 17:21 萌哥-爱学习 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 第一步 第二步, 二级目录,最重要 注意第四步都是灰色的 , 第三步选择完 后 , 选择第五步 ,然后在调整一下 “点” 即可 ,另外需要注意第二步 第三步 2.2是右侧选出来的, 圆圈里的是一起选出来的。 阅读全文
posted @ 2022-09-19 22:14 萌哥-爱学习 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 二、Hive and SparkSQL https://blog.csdn.net/m0_61607827/article/details/123561645 ​ 其中SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive;而Hive on Spark是一个Hive 阅读全文
posted @ 2022-09-07 09:15 萌哥-爱学习 阅读(505) 评论(0) 推荐(0) 编辑
摘要: wps 设置 章节样式自动生成 一级标题设置方法 二级标题设置方法 三级标题设置方法 阅读全文
posted @ 2022-09-04 19:20 萌哥-爱学习 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速 阅读全文
posted @ 2021-09-12 18:53 萌哥-爱学习 阅读(40) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/zhanglh046/article/details/78578852 列式存储和行式存储 首先我们看一下一张表的存储格式 1.1 行式存储 1.2 列式存储 1.3列式存储和行式存储的比较 行式存储 优点: #相关的数据是保存在一起,比较符合面向对象的思 阅读全文
posted @ 2021-09-07 17:38 萌哥-爱学习 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 需求 将scott源表product2 直抽至 ODS层 ods_ product2 ODS数据至EDW层做聚合转换 求各供应商 max(price),min(price),sum(price),avg(price) ,avg(price)*2 设置映射 设置会话。 设置session 设置工作流, 阅读全文
posted @ 2020-11-28 19:10 萌哥-爱学习 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-11-22 21:23 萌哥-爱学习 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 作为oracle监听命令 在启动、关闭或者重启oracle监听器之前确保使用lsnrctl status命令检查oracle监听器的状态: 1、$lsnrctl status:检查当前监听器的状态 2、$lsnrctl start [listener-name] 启动所有的监听器,可以指定名字来启动 阅读全文
posted @ 2020-11-22 20:56 萌哥-爱学习 阅读(1588) 评论(0) 推荐(0) 编辑
摘要: 1 阅读全文
posted @ 2020-10-08 13:45 萌哥-爱学习 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 1. 更新. select * from dept for update; 2.count(*) 3. select * from dual; 4. select * from emp; 1 7369 SMITH CLERK 7902 1980/12/17 800.00 20 2 7499 ALLE 阅读全文
posted @ 2020-10-03 17:44 萌哥-爱学习 阅读(135) 评论(0) 推荐(0) 编辑
摘要: https://www.jb51.net/article/144291.htm fdisk -l fdisk /dev/vda 譬如增加这个盘符 5. 重启Linux操作系统,使用reboot命令。 6. 创建物理卷,使用pvcreate /dev/vda4命令。 root@ubuntu14:~# 阅读全文
posted @ 2020-08-23 19:30 萌哥-爱学习 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 拉链表 因为hive 不能进行update操作,基于这个前提我们实现拉链表.拉链表适用于同步新增和变化的数据.记录了一个事务从开始,一直到当前状态的变化信息,需要查看某一个事件点或者历史段的历史快照信息.设计拉链表我们会增加两个字段 一个是starttime 一个是endtime ,用来记录该条记录 阅读全文
posted @ 2020-07-11 09:46 萌哥-爱学习 阅读(1250) 评论(0) 推荐(0) 编辑
摘要: /bin/目录下下 sh zkCli.sh 进入客户端目录下: 查看根目录 [zk: localhost:2181(CONNECTED) 11] ls /[cluster, controller, brokers, zookeeper, admin, isr_change_notification, 阅读全文
posted @ 2020-06-23 23:36 萌哥-爱学习 阅读(3532) 评论(0) 推荐(0) 编辑
摘要: zk报错 分析问题的方法 。 起不来服务 然后去log 目录下 查看zookeeper.out的日志 一般放在/tmp目录下或者 zk的home目录下. [root@hadoop103 ~]# tail -f -n 100 zookeeper.out 2020-06-23 04:24:01,764 阅读全文
posted @ 2020-06-23 19:58 萌哥-爱学习 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 1. xcall.sh 查看状态 的命令: xcall.sh jps 1 #! /bin/bash 2 3 for i in hadoop102 hadoop103 hadoop104 4 do 5 echo $i 6 ssh $i "$*" 7 done#!/bin/bashparams=$@fo 阅读全文
posted @ 2020-06-22 20:01 萌哥-爱学习 阅读(339) 评论(0) 推荐(0) 编辑
摘要: topic 是一个逻辑的概念 ,partition是一个物理的概念 ,每一个partition对应一个log文件 index文件的内容 , offset 值和 position 值 分区: kafka分区的作用个人觉得就是提供一种负载均衡的能力 所谓分区策略是决定生产者将消息发送到哪个分区的算法 分 阅读全文
posted @ 2020-06-11 21:53 萌哥-爱学习 阅读(226) 评论(0) 推荐(0) 编辑
摘要: [atguigu@hadoop102 bin]$ vim xcall.sh #! /bin/bash for i in hadoop102 hadoop103 hadoop104 do echo $i ssh $i "$*" done chmod 777 xcall.sh xcall.sh jps 阅读全文
posted @ 2020-05-27 22:00 萌哥-爱学习 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 数据仓库的概念 1. 日志采集系统 2. 业务系统数据库 [mysql] 3.爬虫系统. HIVE本质上是一个客户端,没有集群的概念. 阅读全文
posted @ 2020-05-27 11:16 萌哥-爱学习 阅读(134) 评论(0) 推荐(0) 编辑
摘要: [atguigu@hadoop102 common]$ xsync hadoop-lzo-0.4.20.jar 先下载 https://github.com/twitter/hadoop-lzo/archive/master.zip 2)下载后的文件名是hadoop-lzo-master,它是一个z 阅读全文
posted @ 2020-05-27 10:48 萌哥-爱学习 阅读(654) 评论(0) 推荐(0) 编辑
摘要: vim ~/.vimrc set nu 即可 阅读全文
posted @ 2020-05-21 10:37 萌哥-爱学习 阅读(149) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页