硅谷工具人 - 博客园

[置顶] 尚硅谷YYDS (视频连接)

摘要： 01_尚硅谷大数据技术之Linux 视频连接：https://www.bilibili.com/video/BV1tv411q7dr 02_尚硅谷大数据技术之Shell 视频连接：https://www.bilibili.com/video/BV1gt4y1X7Ni 03_尚硅谷大数据技术之Hado 阅读全文

posted @ 2022-06-14 23:27 硅谷工具人阅读(484) 评论(0) 推荐(2)

[置顶] 尚硅谷YYDS (课件资料)

摘要：面试大保健链接：https://pan.baidu.com/s/1duUHb4AwOnW9jycDnUCRVA 提取码：undf 尚硅谷大数据技术之 StarRocks 链接：https://pan.baidu.com/s/1mrW115g6fp_rb-BK9e1lcg 提取码：yrh7 尚硅谷大阅读全文

posted @ 2022-06-14 23:15 硅谷工具人阅读(11085) 评论(1) 推荐(9)

[置顶] 网站导航

摘要：分类名称地址备注软件 PDF文档下载地址 https://www.xz577.com/ Java SpringSecurity https://www.bilibili.com/video/BV1mm4y1X7Hc?p=1https://www.bilibili.com/video/BV1Q 阅读全文

posted @ 2022-05-12 12:06 硅谷工具人阅读(169) 评论(0) 推荐(0)

2023年8月28日

【学习目录】

摘要： 2023年学习列表分类项目技术栈视频连接机构进度后端 Elasticsearch 搜索 https://www.bilibili.com/video/BV1Gh411j7d6/?p=4&spm_id_from=pageDriver&vd_source=6916013ff10f407b3 阅读全文

posted @ 2023-08-28 17:34 硅谷工具人阅读(73) 评论(0) 推荐(0)

2023年7月18日

invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved

摘要： ``` ... 1 more Caused by: java.io.FileNotFoundException: File does not exist: hdfs://ns1/user/hive/warehouse/dw.db/dw_uniswapv3_position_detail/pk_day 阅读全文

posted @ 2023-07-18 20:46 硅谷工具人阅读(501) 评论(0) 推荐(0)

2023年5月29日

Python日期带时区转换工具类总结

摘要： @[TOC] # 1.背景最近项目是国际项目，所以需要经常需要用到UTC时间和local时间的转换。所以整理了一下时间戳工具类，方便使用。这里主要用到的包就是datatime、time、pytz。 # 2. 遇到的坑直接看测试案例 ```python tzinfo=pytz.timezone 阅读全文

posted @ 2023-05-29 13:50 硅谷工具人阅读(989) 评论(0) 推荐(1)

2023年5月23日

UniswapV3金融公式计算

摘要： # 概念 unCollectFees 未提取奖励 CollectFees 已提取奖励 IL 无偿损失 # 公式 ### NetAssets 净资产每个pool的两个币的amount(数量)*price(单价)的累加值，但不包含奖励 ### IL无偿损失开仓时的币数量*价格 - 当前的币的数量*价阅读全文

posted @ 2023-05-23 17:47 硅谷工具人阅读(172) 评论(0) 推荐(0)

2023年4月22日

Knife4j文档请求异常

摘要：通常遇到这个异常信息，都是由于在SpringBoot项目中，分不同的模块开发。注解配置 @EnableSwagger2WebMvc不在启动类上，而是加到了其他模块的注解中导致的。我的是common一个单独的模块，在common模块中配置了WebMvcConfig。然后在WebMvcConfig 阅读全文

posted @ 2023-04-22 17:28 硅谷工具人阅读(4852) 评论(2) 推荐(0)

2023年4月21日

学习资料大数据篇

摘要：面试大保健链接：https://pan.baidu.com/s/1duUHb4AwOnW9jycDnUCRVA 提取码：undf 大数据技术之 StarRocks 链接：https://pan.baidu.com/s/1mrW115g6fp_rb-BK9e1lcg 提取码：yrh7 大数据技术之数阅读全文

posted @ 2023-04-21 10:15 硅谷工具人阅读(399) 评论(0) 推荐(0)

2023年4月19日

pyspark-shell开启多行粘贴

摘要： pyspark-shell 在/home/用户/目录下，新建一个隐藏文件 .inputrc 然后填入 set enable-bracketed-paste off spark-shell 注意：上面的设置只支持pyspark的代码，发现不支持scala的版本。 scala的版本，还是必须手工敲 :p 阅读全文

posted @ 2023-04-19 16:46 硅谷工具人阅读(92) 评论(0) 推荐(0)

2023年4月14日

解决Spark读取tmp结尾的文件报错的问题

摘要：

业务场景 flume采集文件到hdfs中，在采集中的文件会添加.tmp后缀。一个批次完成提交后，会将.tmp后缀重名名，将tmp去掉。所以，当Spark程序读取到该hive外部表映射的路径时，如果恰好这个文件被重命名过，就会出现找不到xxx.tmp文件的问题出现。解决思路： Hdfs提供了读取文阅读全文

posted @ 2023-04-14 11:27 硅谷工具人阅读(107) 评论(0) 推荐(0)

2023年3月18日

(固态硬盘)虚拟机安装Win7操作系统

摘要：固态硬盘Vmware上安装Win7虚拟机我的笔记本是固态硬盘，要安装个win7操作系统做一些测试，刚开始怎么将光驱加载下载的ISO文件，启动时总是失败。大概是下面这样的显示。我尝试过修改启动时从CDROM加载，还是从UEFI启动都不行。后来终于发现原因：固态硬盘，需要从UFEI启动，并且在阅读全文

posted @ 2023-03-18 20:29 硅谷工具人阅读(379) 评论(0) 推荐(0)

2023年3月14日

hive中牛逼的映射

摘要： CREATE TABLE IF NOT EXISTS jsontest( date STRING, channel STRING, machine STRING, resolution STRING, display STRING, ip STRING, lat STRING, lng STRING 阅读全文

posted @ 2023-03-14 19:33 硅谷工具人阅读(44) 评论(0) 推荐(0)

2023年2月2日

跨集群表数据迁移

摘要： 1.Spark方式从老集群写到新集群 spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test") 从新集群生成hive表： spark.read.parquet 阅读全文

posted @ 2023-02-02 10:41 硅谷工具人阅读(90) 评论(0) 推荐(0)

Spark saveAsTable写入表会提示表已存在的问题

摘要：使用以下方式写入表时，如果表不存在，但是表的hdfs目录下存在文件时会报错 df.write.mode("overwrite").partitionBy("pk_hour").saveAsTable("dw.test") 可以在Spark的参数中添加下面配置，以下仅仅是Spark2中生效： spar 阅读全文

posted @ 2023-02-02 10:31 硅谷工具人阅读(410) 评论(0) 推荐(0)

2023年1月9日

使用Python清理历史文件夹

摘要：根据修改时间，删除文件夹。例如：删除某个日期之前的文件夹。 # -*- coding: utf-8 -*- # @Time : 2023/1/9 19:34 # @Author : King # @Software: PyCharm # @Describe: # -*- encoding:utf- 阅读全文

posted @ 2023-01-09 20:42 硅谷工具人阅读(99) 评论(0) 推荐(0)

2023年1月5日

Conda安装py3spark环境操作

摘要：查看虚拟环境 conda env list 创建虚拟环境 conda create -n py3spark python=3.6 删除虚拟环境以及虚拟环境中所有包 conda remove -n py3spark --all 在虚拟环境中安装包 conda install -n py3spark p 阅读全文

posted @ 2023-01-05 17:25 硅谷工具人阅读(166) 评论(0) 推荐(0)

2023年1月3日

CDH配置Flume无法失效的问题

摘要：在使用过cdh6.3.1版本的flume时，配置了从kafka消费写入hdfs，使用的是FileChannel。使用FileChannel还是考虑到数据可靠性。但是今天在配置的时候，一直不生效。由于我在配置FileChannel时，在指定的Agent的服务器上去设置目录。这里必须将该目录的o 阅读全文

posted @ 2023-01-03 21:56 硅谷工具人阅读(79) 评论(0) 推荐(0)

2022年12月21日

Flink使用TableAPi方式读取和写入Hive

摘要：以下是一个简单的参考实例，用来验证通过FlinkSQL来跑批方式清洗Hive数据可行的。（1）验证了Hive中org.openx.data.jsonserde.JsonSerDe格式的表是可以直接读取数据出来的（2）通过TableAPI方式读取Hive表（3）表转流操作，以及在流中做数据清洗阅读全文

posted @ 2022-12-21 18:10 硅谷工具人阅读(1604) 评论(0) 推荐(0)

2022年12月7日

org.apache.spark.sql.AnalysisException: Can not create the managed table

摘要： spark执行过程中偶发性出现错误。 Traceback (most recent call last): File "/dfs/data9/nm-local-dir/usercache/hadoop/appcache/application_1666879209698_29104/containe 阅读全文

posted @ 2022-12-07 17:35 硅谷工具人阅读(632) 评论(0) 推荐(0)

2022年12月5日

hive和trino中的爆炸函数lateral view explode与cross join unnest用法

摘要：遇到一个不规则的json如下： trace是数组，外面2个time，hash都是单个字段。所以通过hive建表如下,trace使用了array包裹了struct结构： create external table xy_ods.ods_address_trace( trace array<struc 阅读全文

posted @ 2022-12-05 17:47 硅谷工具人阅读(1651) 评论(0) 推荐(0)

2022年12月1日

(实验性质的) hadoop fsck健康检查副本异常信息Target Replicas is 3 but found 2 live replica(s)

摘要：之前下架过节点，导致副本数量不全，再做健康检查时，发现许多这样的信息。当然这样的信息并不是一定有问题，比如以下目录副本数就只有一个；执行的flink的任务时，/flink/job/目录 hbase的一些tmp临时目录 /hbase/tmp 上传的jar包程序 /jars/ Under repli 阅读全文

posted @ 2022-12-01 15:58 硅谷工具人阅读(297) 评论(0) 推荐(0)

2022年11月29日

hadoop节点下线的问题

摘要： ~~注意：以下操作都是理论上的，由于我安装的是apache hadoop3.1.3 原生版本，所以按照以下操作时，全部不生效~~ ~~最后只能通过手工停止datanode，nodemanger，停止节点。~~ ~~然后修改works，在HA模式下，先停1个namenode，然后重启。再停另外个nam 阅读全文

posted @ 2022-11-29 15:01 硅谷工具人阅读(196) 评论(0) 推荐(0)

时间的往事

所有命运赠送的礼物，早已在暗中标着价格。

公告