萌哥-爱学习 - 博客园

2024年3月11日

摘要： https://blog.csdn.net/Jerry00713/article/details/113914587?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171012381616800197043628%2522%252C% 阅读全文

posted @ 2024-03-11 10:28 萌哥-爱学习阅读(32) 评论(0) 推荐(0)

2024年3月3日

油管转换地址YOUTUBE

摘要： https://m.y2mate.tools/zh-cn/youtube-to-mp4 阅读全文

posted @ 2024-03-03 15:17 萌哥-爱学习阅读(226) 评论(0) 推荐(0)

2024年2月17日

大数据中常用端口号总结

摘要： Hadoop常用端口 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ：高可用模式ZKFC端口 19888：阅读全文

posted @ 2024-02-17 20:43 萌哥-爱学习阅读(484) 评论(0) 推荐(0)

2024年2月9日

YARN命令

摘要： yarn application查看任务 yarn application -list （2）根据Application状态过滤：yarn application -list -appStates （所有状态：ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING 阅读全文

posted @ 2024-02-09 22:12 萌哥-爱学习阅读(58) 评论(0) 推荐(0)

2024年1月28日

ES 制造测试数据方法。

摘要： import randomdata = {"name": "tom", "age": 18}# 复制100次copies = [data.copy() for _ in range(11)]aa='dddddddddd'# 随机生成name和agea= '{"index":{"_index":"du 阅读全文

posted @ 2024-01-28 20:57 萌哥-爱学习阅读(91) 评论(0) 推荐(0)

ES数据迁移方案，-自己总结基于REINDEX_API`

摘要：跨集群ES数据迁移:1. 设置白名单在目标ES库（新库）reindex.remote.whitelist: ["192.168.9.201:9200"][或者下面参数:reindex.remote.whitelist: "10.*:*"http.cors.enabled: truehttp.cors 阅读全文

posted @ 2024-01-28 20:23 萌哥-爱学习阅读(431) 评论(0) 推荐(0)

2024年1月26日

HIVE 添加jar包的方式

摘要： https://blog.csdn.net/qianshangding0708/article/details/50381966 Hive 引入第三方Jar包的方式 https://blog.csdn.net/weixin_40579109/article/details/112614334 查看加阅读全文

posted @ 2024-01-26 15:28 萌哥-爱学习阅读(467) 评论(0) 推荐(0)

2024年1月22日

ES 手册安装

摘要： ES版本为： 8.11.4 JAVA 版本用 11版本. 务必！！！！！！！！【默认也行，不必11】 [root@es1 bin]# pwd/opt/elasticsearch-8.11.4/bin 集群配置文件不带密码的： ES1 [root@es8 config]# vi elasticse 阅读全文

posted @ 2024-01-22 14:28 萌哥-爱学习阅读(52) 评论(0) 推荐(0)

2024年1月21日

HDP 相关日志位置

摘要： 1. HIVESERVER2 的日志： /var/log/hive -rwxrwxrwx 1 hive hadoop 479 1月 14 18:20 hive.err -rwxrwxrwx 1 hive hadoop 2438 1月 13 20:27 hivemetastore-gc-2024-01 阅读全文

posted @ 2024-01-21 17:07 萌哥-爱学习阅读(195) 评论(0) 推荐(0)

2023年9月24日

HIVE增量同步方案2

摘要： SELECT student_temp.id ,coalesce(student_temp.age,student.age) as age ,student_temp.name ,coalesce(student_temp.dt,student.dt) as dt FROM student_temp 阅读全文

posted @ 2023-09-24 12:29 萌哥-爱学习阅读(185) 评论(0) 推荐(0)

2023年7月18日

数仓知识07：数据增量更新的几种方式

摘要：数仓知识07：数据增量更新的几种方式 1、增量更新的几种方式增量更新的本质，其实是获取源表中数据变化的情况（增、删、改），然后将源表中发生的变化同步至目标表中。不同的方式，获取源表中数据变化的情况不一样，受技术的限制、表结构的限制，某些方式可能无法获取到完整的数据变化情况，因此只能适用于特定的场阅读全文

posted @ 2023-07-18 17:21 萌哥-爱学习阅读(1320) 评论(0) 推荐(0)

2022年9月19日

word自动生成目录最新版本

摘要：第一步第二步，二级目录，最重要注意第四步都是灰色的，第三步选择完后，选择第五步，然后在调整一下 “点” 即可，另外需要注意第二步第三步 2.2是右侧选出来的，圆圈里的是一起选出来的。阅读全文

posted @ 2022-09-19 22:14 萌哥-爱学习阅读(392) 评论(0) 推荐(0)

2022年9月7日

HIVE ON SPARK 和sparksql

摘要：二、Hive and SparkSQL https://blog.csdn.net/m0_61607827/article/details/123561645 其中SparkSQL作为Spark生态的一员继续发展，而不再受限于Hive，只是兼容Hive；而Hive on Spark是一个Hive 阅读全文

posted @ 2022-09-07 09:15 萌哥-爱学习阅读(554) 评论(0) 推荐(0)

2022年9月4日

wps 设置章节样式自动生成

摘要： wps 设置章节样式自动生成一级标题设置方法二级标题设置方法三级标题设置方法阅读全文

posted @ 2022-09-04 19:20 萌哥-爱学习阅读(522) 评论(0) 推荐(0)

2021年9月12日

HIVE 与impala

摘要：但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速阅读全文

posted @ 2021-09-12 18:53 萌哥-爱学习阅读(53) 评论(0) 推荐(0)

2021年9月7日

行是存储和列shi存储

摘要： https://blog.csdn.net/zhanglh046/article/details/78578852 列式存储和行式存储首先我们看一下一张表的存储格式 1.1 行式存储 1.2 列式存储 1.3列式存储和行式存储的比较行式存储优点： #相关的数据是保存在一起，比较符合面向对象的思阅读全文

posted @ 2021-09-07 17:38 萌哥-爱学习阅读(291) 评论(0) 推荐(0)

2020年11月28日

02_INFA_聚合组件

摘要：需求将scott源表product2 直抽至 ODS层 ods_ product2 ODS数据至EDW层做聚合转换求各供应商 max(price),min(price),sum(price),avg(price) ,avg(price)*2 设置映射设置会话。设置session 设置工作流，阅读全文

posted @ 2020-11-28 19:10 萌哥-爱学习阅读(152) 评论(0) 推荐(0)

2020年11月22日

infa设置代码页属性

摘要：阅读全文

posted @ 2020-11-22 21:23 萌哥-爱学习阅读(128) 评论(0) 推荐(0)

oracle 中的lsnrctl命令

摘要：作为oracle监听命令在启动、关闭或者重启oracle监听器之前确保使用lsnrctl status命令检查oracle监听器的状态： 1、$lsnrctl status：检查当前监听器的状态 2、$lsnrctl start [listener-name] 启动所有的监听器,可以指定名字来启动阅读全文

posted @ 2020-11-22 20:56 萌哥-爱学习阅读(1812) 评论(0) 推荐(0)

2020年10月8日

Oracle笔记查询_04

摘要： 1 阅读全文

posted @ 2020-10-08 13:45 萌哥-爱学习阅读(84) 评论(0) 推荐(0)

2020年10月3日

Oracle笔记查询_01

摘要： 1. 更新. select * from dept for update; 2.count(*) 3. select * from dual; 4. select * from emp; 1 7369 SMITH CLERK 7902 1980/12/17 800.00 20 2 7499 ALLE 阅读全文

posted @ 2020-10-03 17:44 萌哥-爱学习阅读(183) 评论(0) 推荐(0)

2020年8月23日

给linux系统增加空间根目录增加空间

摘要： https://www.jb51.net/article/144291.htm fdisk -l fdisk /dev/vda 譬如增加这个盘符 5. 重启Linux操作系统，使用reboot命令。 6. 创建物理卷，使用pvcreate /dev/vda4命令。 root@ubuntu14:~# 阅读全文

posted @ 2020-08-23 19:30 萌哥-爱学习阅读(1050) 评论(0) 推荐(0)

2020年6月23日

查看zookeeper的注册信息

摘要： /bin/目录下下 sh zkCli.sh 进入客户端目录下：查看根目录 [zk: localhost:2181(CONNECTED) 11] ls /[cluster, controller, brokers, zookeeper, admin, isr_change_notification, 阅读全文

posted @ 2020-06-23 23:36 萌哥-爱学习阅读(3579) 评论(0) 推荐(0)

troubleshooting -zk 报错解决方案

摘要： zk报错分析问题的方法。起不来服务然后去log 目录下查看zookeeper.out的日志一般放在/tmp目录下或者 zk的home目录下. [root@hadoop103 ~]# tail -f -n 100 zookeeper.out 2020-06-23 04:24:01,764 阅读全文

posted @ 2020-06-23 19:58 萌哥-爱学习阅读(1046) 评论(0) 推荐(0)

2020年6月22日

查看状态信息

摘要： 1. xcall.sh 查看状态的命令: xcall.sh jps 1 #! /bin/bash 2 3 for i in hadoop102 hadoop103 hadoop104 4 do 5 echo $i 6 ssh $i "$*" 7 done#!/bin/bashparams=$@fo 阅读全文

posted @ 2020-06-22 20:01 萌哥-爱学习阅读(362) 评论(0) 推荐(0)

2020年6月11日

kafka

摘要： topic 是一个逻辑的概念，partition是一个物理的概念，每一个partition对应一个log文件 index文件的内容， offset 值和 position 值分区： kafka分区的作用个人觉得就是提供一种负载均衡的能力所谓分区策略是决定生产者将消息发送到哪个分区的算法分阅读全文

posted @ 2020-06-11 21:53 萌哥-爱学习阅读(244) 评论(0) 推荐(0)

2020年6月6日

数仓分层

摘要：数据仓库和数据仓库分层1 数据仓库的概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本阅读全文

posted @ 2020-06-06 23:27 萌哥-爱学习阅读(19) 评论(0) 推荐(0)

2020年5月27日

查看进程jps的脚本

摘要： [atguigu@hadoop102 bin]$ vim xcall.sh #! /bin/bash for i in hadoop102 hadoop103 hadoop104 do echo $i ssh $i "$*" done chmod 777 xcall.sh xcall.sh jps 阅读全文

posted @ 2020-05-27 22:00 萌哥-爱学习阅读(382) 评论(0) 推荐(0)

大数据项目.

摘要：数据仓库的概念 1. 日志采集系统 2. 业务系统数据库 [mysql] 3.爬虫系统. HIVE本质上是一个客户端，没有集群的概念. 阅读全文

posted @ 2020-05-27 11:16 萌哥-爱学习阅读(142) 评论(0) 推荐(0)

hadoop支持LZO压缩配置

摘要： [atguigu@hadoop102 common]$ xsync hadoop-lzo-0.4.20.jar 先下载 https://github.com/twitter/hadoop-lzo/archive/master.zip 2）下载后的文件名是hadoop-lzo-master，它是一个z 阅读全文

posted @ 2020-05-27 10:48 萌哥-爱学习阅读(685) 评论(0) 推荐(0)

2020年5月21日

linux 增加行号 vim ~/.vimrc

摘要： vim ~/.vimrc set nu 即可阅读全文

posted @ 2020-05-21 10:37 萌哥-爱学习阅读(178) 评论(0) 推荐(0)

2020年4月29日

CDH环境搭建遇到的问题

摘要： Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 60。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf，以在重启后保存该设置。您可以继续进行安装，但 Cloudera Manager 可能会报告您的主机由于交阅读全文

posted @ 2020-04-29 16:08 萌哥-爱学习阅读(705) 评论(0) 推荐(1)

2020年4月21日

hadoops的版本datanode和namenode的版本

摘要： [root@hadoop03 current]# more VERSION #Thu Apr 16 14:16:06 CST 2020 storageID=DS-d9151153-8825-4128-ad82-2dbdd30111f4 clusterID=CID-48783392-da13-4ced 阅读全文

posted @ 2020-04-21 15:32 萌哥-爱学习阅读(280) 评论(0) 推荐(0)

2020年4月20日

安装hadoop 单机版本.

摘要：整理笔记 1. 环境变量 etc/profile #Java export JAVA_HOME=/opt/jdk1.8.0_271 export PATH=$PATH:$JAVA_HOME/bin #hadoop export HADOOP_HOME=/opt/hadoop-2.7.1 export 阅读全文

posted @ 2020-04-20 09:49 萌哥-爱学习阅读(277) 评论(0) 推荐(0)

2020年4月19日

zookeeper集群搭建

摘要：安装zookeeper 集群下载解压忽略关闭防火墙【重点，有两种方式都要关闭】方法一：开机禁用(需要重启生效):systemctl disable firewalld.service 方法二： IPtables(centos6之前的): 永久关闭防火墙（关机重启才会生效） chkconfig 阅读全文

posted @ 2020-04-19 10:24 萌哥-爱学习阅读(174) 评论(0) 推荐(0)

2020年4月16日

hive

摘要： 1 解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ 2.修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive 阅读全文

posted @ 2020-04-16 14:57 萌哥-爱学习阅读(443) 评论(0) 推荐(0)

2020年4月14日

vmware修改ip地址

摘要： https://www.cnblogs.com/weibanggang/p/10749355.html ware虚拟机设置静态IP地址一、安装好虚拟后在菜单栏选择编辑→ 虚拟网络编辑器，打开虚拟网络编辑器对话框，选择Vmnet8 Net网络连接方式，随意设置子网IP，点击NAT设置页面，查看子网掩阅读全文

posted @ 2020-04-14 14:39 萌哥-爱学习阅读(10819) 评论(0) 推荐(0)

2020年4月1日

应用级缓存

摘要：基于空间：指缓存设置了存储空间，如果设置为10MB，当达到存储空间上限时，按照一定的策略移除数据。基于容量：指缓存设置了最大大小，当缓存的条目超过最大大小时，按照一定的策略移除旧数据。基于时间 TTL(Time To Live)：存活期，即缓存数据从创建开始直到到期的一个时间段。 TTI(Tim 阅读全文

posted @ 2020-04-01 14:16 萌哥-爱学习阅读(392) 评论(0) 推荐(1)

2020年3月31日

1.RandomAccessFile特点

摘要：（转）RandomAccessFile类使用详解 1.RandomAccessFile特点 RandomAccessFile是java Io体系中功能最丰富的文件内容访问类。即可以读取文件内容，也可以向文件中写入内容。但是和其他输入/输入流不同的是，程序可以直接跳到文件的任意位置来读写数据。因为R 阅读全文

posted @ 2020-03-31 09:39 萌哥-爱学习阅读(681) 评论(0) 推荐(0)

2020年3月30日

Java NIO教程前言

摘要： Java NIO教程 Channel Channel是一个连接到数据源的通道。程序不能直接用Channel中的数据，必须让Channel与BtyeBuffer交互数据，才能使用Buffer中的数据。我们用FileChannel作为引子，开始逐步的了解NIO中的重要一环——Channel FileC 阅读全文

posted @ 2020-03-30 17:20 萌哥-爱学习阅读(207) 评论(0) 推荐(0)

萌哥

爱学习

公告