大数据 - 随笔分类 - 明月照江江

dolphinscheduler worker宕机故障转移能力源码分析

摘要：worker宕机，主要是worker上面跑的task需要及时发现及时重跑，顺着这个思路来进行源码的分析 1. MasterRegistryDataListener 这是向Zookeeper 注册的回调类，当Zookeeper数据产生变化，会回调它的notify方法 @Override public 阅读全文

posted @ 2024-03-17 15:00 明月照江江阅读(175) 评论(0) 推荐(0) 编辑

dolphinscheduler 实现master宕机故障转移能力源码分析

摘要：DS（dolphinscheduler）的master 是去中心化的，而故障转移能力是由master完成的，那么是多个master同时干故障转移，还是选举出一个master来干这件事情呢？回归到源码进行分析 1. master 启动方法 @PostConstruct public void run 阅读全文

posted @ 2024-03-10 21:21 明月照江江阅读(206) 评论(0) 推荐(0) 编辑

dolphinscheduler master实现去中心化源码分析

摘要：dolphinscheduler Master服务是去中心化的，也就是没有master和slave之分，每个master都参与工作，那么它是如何每个Master服务去取任务执行时，每个Master都取到不同的任务，并且不会漏掉，不会重复的呢，下面从源码角度来分析这个问题 MasterServer. 阅读全文

posted @ 2024-03-07 22:44 明月照江江阅读(176) 评论(0) 推荐(0) 编辑

Doris Fe在Mac上搭建开发环境踩坑记录

摘要：1. 拉取代码到本地 git clone https://github.com/apache/doris.git 2. 参考Doris的文档，但别全信（信了你就上当了）参考第一篇 https://doris.apache.org/zh-CN/community/developer-guide/fe 阅读全文

posted @ 2024-02-24 22:54 明月照江江阅读(585) 评论(0) 推荐(0) 编辑

centos7.5 hadoop NAT 静态IP网络环境搭建

摘要：1 设置 VMware 网络环境 1. 选择VMNet8 并将子网IP 修改为 192.168.10.0，保证集群ip都在这个网段下 2. 选择NAT 设置，配置NAT的网关为 192.168.10.2 2 设置 windows11 网络环境 1. 打开控制面板\网络和 Internet\网络连接阅读全文

posted @ 2023-12-03 20:19 明月照江江阅读(19) 评论(0) 推荐(0) 编辑

spark 解决 java.util.Date is not a valid external type for schema of Date

摘要：出错伪代码如下： //出错的点在这里 import java.util.Date ... val t_rdd = t_frame.rdd.map(row => { val photo_url = row.getAs[String]("photo_url") val longitude = row.g 阅读全文

posted @ 2022-09-06 20:21 明月照江江阅读(332) 评论(0) 推荐(0) 编辑

记一次 Sedona（GeoSpark）空间计算优化

摘要：项目需求需要空间计算能力，开始选型Sedona（GeoSpark）来完成，需求需要每一条数据在满足某条件的情况下，去查找某张表进行空间匹配，找到离这个点（point）最近的一条道路（lineString）第一个方案: 使用sedona来使用临近道路的判断由于sedona本质还是使用spark的阅读全文

posted @ 2022-09-06 20:10 明月照江江阅读(717) 评论(0) 推荐(1) 编辑

python 数据挖掘模块学习

摘要：项目中用到的模块 API # 模块： import pandas as pd import numpy as np from scipy.optimize import curve_fit numpy np.array 创建ndarray np.polyfit 根据传入的x数组和y数组，及阶数，拟合阅读全文

posted @ 2022-08-26 16:17 明月照江江阅读(28) 评论(0) 推荐(0) 编辑

JTS TopologyException 问题

摘要：计算2个几何相交结果时候，报错了： val geometry = polygon.intersection(lineString) 日志如下 org.locationtech.jts.geom.TopologyException: found non-noded intersection betwe 阅读全文

posted @ 2022-08-26 16:02 明月照江江阅读(610) 评论(0) 推荐(0) 编辑

Elasticsearch7.6.2 RestHighLevelClient查询用法 must should（and or 关系）

摘要：1. 引入jar <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.6.2</versio 阅读全文

posted @ 2022-03-24 14:26 明月照江江阅读(955) 评论(0) 推荐(0) 编辑

sedona(Geospark)读取csv

摘要：package com.grady.sedona import org.apache.sedona.sql.utils.SedonaSQLRegistrator import org.apache.sedona.viz.core.Serde.SedonaVizKryoRegistrator impo 阅读全文

posted @ 2022-02-10 18:59 明月照江江阅读(187) 评论(0) 推荐(0) 编辑

spark 读取Geomesa(Hbase)数据

摘要：package com.grady.geomesa import org.apache.hadoop.conf.Configuration import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkS 阅读全文

posted @ 2022-02-10 15:37 明月照江江阅读(694) 评论(0) 推荐(0) 编辑

spark 写入数据到Geomesa(Hbase)

摘要：package com.grady.geomesa import org.apache.spark.sql.jts.PointUDT import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType 阅读全文

posted @ 2022-02-10 15:31 明月照江江阅读(411) 评论(0) 推荐(0) 编辑

Spark 读取HDFS csv文件并写入hive

摘要：package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, SparkSession} /** * csv 文件数据写入hive */ object CsvToHive 阅读全文

posted @ 2022-02-08 17:48 明月照江江阅读(675) 评论(0) 推荐(0) 编辑

spark 读取hive 计算后写入hive

摘要：package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, Row, SparkSession} object HiveTableToTable { def main(args 阅读全文

posted @ 2022-02-08 17:45 明月照江江阅读(223) 评论(0) 推荐(0) 编辑

Spark 读Hive并写入HBase

摘要：package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.Immuta 阅读全文

posted @ 2022-02-08 17:29 明月照江江阅读(258) 评论(0) 推荐(0) 编辑

Spark 读 Hbase

摘要：package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.Imm 阅读全文

posted @ 2022-02-08 16:58 明月照江江阅读(159) 评论(0) 推荐(0) 编辑

Spark 写 Hbase

摘要：package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.{Put, Result} import org.apache.hadoop.hbase 阅读全文

posted @ 2022-02-08 16:30 明月照江江阅读(126) 评论(0) 推荐(0) 编辑

CDH6.2.0安装并使用基于HBase的Geomesa

摘要：1. 查看CDH 安装的hadoop 和 hbase 对应的版本具体可以参考以下博客： https://www.cxyzjd.com/article/spark_Streaming/108762904 直接给出答案 hadoop 版本 3.0.0 hbase 版本 2.1.0 2. 在 githu 阅读全文

posted @ 2022-02-04 23:30 明月照江江阅读(586) 评论(0) 推荐(0) 编辑

Hbase shell 操作记录

摘要：查看hbase版本 hbase(main):002:0> version 2.1.0-cdh6.2.0, rUnknown, Wed Mar 13 23:39:58 PDT 2019 Took 0.0003 seconds Hbase表空间概念 1、介绍在HBase中，namespace命名空间指阅读全文

posted @ 2022-01-29 00:13 明月照江江阅读(162) 评论(0) 推荐(0) 编辑

明月照江江的技术博客

随笔分类 - 大数据

公告