随笔分类 -  大数据

摘要:worker宕机,主要是worker上面跑的task需要及时发现及时重跑,顺着这个思路来进行源码的分析 1. MasterRegistryDataListener 这是向Zookeeper 注册的回调类,当Zookeeper数据产生变化,会回调它的notify方法 @Override public 阅读全文
posted @ 2024-03-17 15:00 明月照江江 阅读(175) 评论(0) 推荐(0) 编辑
摘要:DS(dolphinscheduler)的master 是去中心化的,而故障转移能力是由master完成的,那么是多个master同时干故障转移,还是选举出一个master来干这件事情呢? 回归到源码进行分析 1. master 启动方法 @PostConstruct public void run 阅读全文
posted @ 2024-03-10 21:21 明月照江江 阅读(206) 评论(0) 推荐(0) 编辑
摘要:dolphinscheduler Master服务是去中心化的,也就是没有master和slave之分,每个master都参与工作,那么它是如何每个Master服务去取任务执行时,每个Master都取到不同的任务,并且不会漏掉,不会重复的呢 ,下面从源码角度来分析这个问题 MasterServer. 阅读全文
posted @ 2024-03-07 22:44 明月照江江 阅读(176) 评论(0) 推荐(0) 编辑
摘要:1. 拉取代码到本地 git clone https://github.com/apache/doris.git 2. 参考Doris的文档,但别全信(信了你就上当了) 参考第一篇 https://doris.apache.org/zh-CN/community/developer-guide/fe 阅读全文
posted @ 2024-02-24 22:54 明月照江江 阅读(585) 评论(0) 推荐(0) 编辑
摘要:1 设置 VMware 网络环境 1. 选择VMNet8 并将子网IP 修改为 192.168.10.0,保证集群ip都在这个网段下 2. 选择NAT 设置,配置NAT的网关为 192.168.10.2 2 设置 windows11 网络环境 1. 打开 控制面板\网络和 Internet\网络连接 阅读全文
posted @ 2023-12-03 20:19 明月照江江 阅读(19) 评论(0) 推荐(0) 编辑
摘要:出错伪代码如下: //出错的点在这里 import java.util.Date ... val t_rdd = t_frame.rdd.map(row => { val photo_url = row.getAs[String]("photo_url") val longitude = row.g 阅读全文
posted @ 2022-09-06 20:21 明月照江江 阅读(332) 评论(0) 推荐(0) 编辑
摘要:项目需求需要空间计算能力,开始选型Sedona(GeoSpark)来完成, 需求需要每一条数据在满足某条件的情况下,去查找某张表进行空间匹配,找到离这个点(point)最近的一条道路(lineString) 第一个方案: 使用sedona来使用临近道路的判断 由于sedona本质还是使用spark的 阅读全文
posted @ 2022-09-06 20:10 明月照江江 阅读(717) 评论(0) 推荐(1) 编辑
摘要:项目中用到的模块 API # 模块: import pandas as pd import numpy as np from scipy.optimize import curve_fit numpy np.array 创建ndarray np.polyfit 根据传入的x数组和y数组,及阶数,拟合 阅读全文
posted @ 2022-08-26 16:17 明月照江江 阅读(28) 评论(0) 推荐(0) 编辑
摘要:计算2个几何相交结果时候,报错了: val geometry = polygon.intersection(lineString) 日志如下 org.locationtech.jts.geom.TopologyException: found non-noded intersection betwe 阅读全文
posted @ 2022-08-26 16:02 明月照江江 阅读(610) 评论(0) 推荐(0) 编辑
摘要:1. 引入jar <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.6.2</versio 阅读全文
posted @ 2022-03-24 14:26 明月照江江 阅读(955) 评论(0) 推荐(0) 编辑
摘要:package com.grady.sedona import org.apache.sedona.sql.utils.SedonaSQLRegistrator import org.apache.sedona.viz.core.Serde.SedonaVizKryoRegistrator impo 阅读全文
posted @ 2022-02-10 18:59 明月照江江 阅读(187) 评论(0) 推荐(0) 编辑
摘要:package com.grady.geomesa import org.apache.hadoop.conf.Configuration import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkS 阅读全文
posted @ 2022-02-10 15:37 明月照江江 阅读(694) 评论(0) 推荐(0) 编辑
摘要:package com.grady.geomesa import org.apache.spark.sql.jts.PointUDT import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType 阅读全文
posted @ 2022-02-10 15:31 明月照江江 阅读(411) 评论(0) 推荐(0) 编辑
摘要:package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, SparkSession} /** * csv 文件数据写入hive */ object CsvToHive 阅读全文
posted @ 2022-02-08 17:48 明月照江江 阅读(675) 评论(0) 推荐(0) 编辑
摘要:package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, Row, SparkSession} object HiveTableToTable { def main(args 阅读全文
posted @ 2022-02-08 17:45 明月照江江 阅读(223) 评论(0) 推荐(0) 编辑
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.Immuta 阅读全文
posted @ 2022-02-08 17:29 明月照江江 阅读(258) 评论(0) 推荐(0) 编辑
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.Imm 阅读全文
posted @ 2022-02-08 16:58 明月照江江 阅读(159) 评论(0) 推荐(0) 编辑
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.{Put, Result} import org.apache.hadoop.hbase 阅读全文
posted @ 2022-02-08 16:30 明月照江江 阅读(126) 评论(0) 推荐(0) 编辑
摘要:1. 查看CDH 安装的hadoop 和 hbase 对应的版本 具体可以参考以下博客: https://www.cxyzjd.com/article/spark_Streaming/108762904 直接给出答案 hadoop 版本 3.0.0 hbase 版本 2.1.0 2. 在 githu 阅读全文
posted @ 2022-02-04 23:30 明月照江江 阅读(586) 评论(0) 推荐(0) 编辑
摘要:查看hbase版本 hbase(main):002:0> version 2.1.0-cdh6.2.0, rUnknown, Wed Mar 13 23:39:58 PDT 2019 Took 0.0003 seconds Hbase表空间概念 1、介绍 在HBase中,namespace命名空间指 阅读全文
posted @ 2022-01-29 00:13 明月照江江 阅读(162) 评论(0) 推荐(0) 编辑