2022 年 10月随笔档案 - 落魄的大数据转AI小哥

摘要：在vim内复制多行假如复制的行带有#号会导致其他不带#号的行自动加# 解决办法，输入一下命令再粘贴即可 :set paste 阅读全文

posted @ 2022-10-25 17:16 落魄的大数据转AI小哥阅读(257) 评论(0) 推荐(0) 编辑

摘要：一、背景使用Spark操作Iceberg（HiveCataLog的方式），使用Spline-Agent收集Spark作业的血缘。二、编译 1、下载源码包：https://github.com/AbsaOSS/spline-spark-agent.git 2、经过测试，发现了一些Bug，影响到了S 阅读全文

posted @ 2022-10-20 18:02 落魄的大数据转AI小哥阅读(885) 评论(1) 推荐(0) 编辑

Kafka针对某个Topic设置数据过期时间

摘要：1、设置1天过期时间 cd /usr/local/kafka bin/kafka-configs.sh --zookeeper 192.168.xxx.xxx:2181,192.168.xxx.xxx:2181,192.168.xxx.xxx:2181 --alter --entity-name 主阅读全文

posted @ 2022-10-19 17:33 落魄的大数据转AI小哥阅读(511) 评论(0) 推荐(0) 编辑

DataX

摘要：一、资料地址 1、Git地址：https://github.com/alibaba/DataX 2、DataX详细介绍：https://github.com/alibaba/DataX/blob/master/introduction.md/ 3、编译下载：https://github.com/al 阅读全文

posted @ 2022-10-19 11:49 落魄的大数据转AI小哥阅读(960) 评论(0) 推荐(0) 编辑

Flink内存模型

摘要：一、内存布局 1、直观图 2、树状图二、内存解释 1、Flink使用的内存（1）JVM堆上内存说明：堆上内存管理序列化之后的数据，如果需要处理的数据超出了内存限制，则会将部分数据存储到硬盘上。堆上内存在写磁盘或网络传输时至少需要一次内存复制。 a.框架堆上内存Framework Heap Me 阅读全文

posted @ 2022-10-15 10:48 落魄的大数据转AI小哥阅读(840) 评论(2) 推荐(0) 编辑

Kafka磁盘满了导致Kafka挂掉问题处理

摘要：1、查看磁盘情况 df -h 2、从根目录查找哪个文件夹占用的磁盘最多 du -h --max-depth=1 / 我们发现/usr和/data目录占用最多，先进入/data目录查看 cd /data 查看/data目录下哪个文件夹占用磁盘多 du -sh * 发现/data/kafka占用比较多，阅读全文

posted @ 2022-10-13 10:11 落魄的大数据转AI小哥阅读(3441) 评论(1) 推荐(0) 编辑

spark.debug.maxToStringFields警告解决

摘要：参考地址：https://blog.csdn.net/weixin_43087913/article/details/117818383 阅读全文

posted @ 2022-10-10 11:25 落魄的大数据转AI小哥阅读(57) 评论(0) 推荐(0) 编辑

HugeGraphServer、Hubble的安装

摘要：一、安装包准备 1、下载地址：https://github.com/hugegraph/hugegraph/releases/download/v0.11.2/hugegraph-0.11.2.tar.gz 2、将下载好的安装包上传至/opt/soft 二、安装HugeGraphServer 1、解阅读全文

posted @ 2022-10-10 10:42 落魄的大数据转AI小哥阅读(649) 评论(0) 推荐(0) 编辑

HugeGraph查询语言

摘要：一、图基本概念与操作 #查询顶点，一般作为图查询的第1步，后面可以续接的语句种类繁多 g.V() #查询图中所有的边 g.E() g.E().hasLabel('rel_hdfs_path_and_spark_input_processes') g.E().hasLabel('rel_hive_ta 阅读全文

posted @ 2022-10-10 10:19 落魄的大数据转AI小哥阅读(710) 评论(0) 推荐(0) 编辑

HugeGraph创建propertyKey出现The name of property key can't be null

摘要：1、发生错误场景（开发环境） import java.io.IOException; import java.util.Iterator; import java.util.List; import java.util.Map; import com.baidu.hugegraph.driver.G 阅读全文

posted @ 2022-10-10 09:49 落魄的大数据转AI小哥阅读(101) 评论(0) 推荐(0) 编辑

Idea中连接HugeGraph服务器出现NoSuchFieldError: EXCLUDE_EMPTY

摘要：1、发生错误场景（开发环境） import java.io.IOException; import java.util.Iterator; import java.util.List; import java.util.Map; import com.baidu.hugegraph.driver.G 阅读全文

posted @ 2022-10-10 09:45 落魄的大数据转AI小哥阅读(159) 评论(0) 推荐(0) 编辑

Apache TinkerPop开源图形计算框架

摘要：一、Apache TinkerPop入门参考文档：https://tinkerpop.apache.org/docs/3.6.0/tutorials/getting-started/ 二、Gremlin 控制台参考文档：https://tinkerpop.apache.org/docs/3.6. 阅读全文

posted @ 2022-10-10 09:40 落魄的大数据转AI小哥阅读(128) 评论(0) 推荐(0) 编辑

Spark3与CDH6.1.1的集成

摘要：一、编译Spark3.0.3源码 1、源码下载 https://github.com/apache/spark/archive/refs/tags/v3.0.3.zip 2、上传至/opt/soft目录并解压至/opt/module unzip spark-3.0.3.zip mv /opt/sof 阅读全文

posted @ 2022-10-10 09:33 落魄的大数据转AI小哥阅读(316) 评论(0) 推荐(0) 编辑

spline-spark-agent收集Spark作业上下游血缘

摘要：一、背景由于spark-atlas-connector无法解析DF算子获取到Spark程序的血缘，因此我们这边针对Spark血缘做了调研，发现spline-agent能解析DF算子，从而获取得到Spark作业血缘，因此我们选择抛弃spark-atlas-connector，转而使用spline-a 阅读全文

posted @ 2022-10-10 09:15 落魄的大数据转AI小哥阅读(1393) 评论(2) 推荐(0) 编辑

Airflow安装

摘要：一、依赖 yum install -y freetds-bin krb5-user ldap-utils libffi6 libsasl2-2 libsasl2-modules libssl1.1 locales lsb-release sasl2-bin sqlite3 unixodbc yum 阅读全文

posted @ 2022-10-08 11:06 落魄的大数据转AI小哥阅读(287) 评论(0) 推荐(0) 编辑

查看Spark对应的Scala版本

摘要：参考地址：https://www.dandelioncloud.cn/article/details/1441027077809229826 阅读全文

posted @ 2022-10-07 10:24 落魄的大数据转AI小哥阅读(120) 评论(0) 推荐(0) 编辑

qq1035807396

10 2022 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论