随笔分类 - 大数据
摘要:worker宕机,主要是worker上面跑的task需要及时发现及时重跑,顺着这个思路来进行源码的分析 1. MasterRegistryDataListener 这是向Zookeeper 注册的回调类,当Zookeeper数据产生变化,会回调它的notify方法 @Override public
阅读全文
摘要:DS(dolphinscheduler)的master 是去中心化的,而故障转移能力是由master完成的,那么是多个master同时干故障转移,还是选举出一个master来干这件事情呢? 回归到源码进行分析 1. master 启动方法 @PostConstruct public void run
阅读全文
摘要:dolphinscheduler Master服务是去中心化的,也就是没有master和slave之分,每个master都参与工作,那么它是如何每个Master服务去取任务执行时,每个Master都取到不同的任务,并且不会漏掉,不会重复的呢 ,下面从源码角度来分析这个问题 MasterServer.
阅读全文
摘要:1. 拉取代码到本地 git clone https://github.com/apache/doris.git 2. 参考Doris的文档,但别全信(信了你就上当了) 参考第一篇 https://doris.apache.org/zh-CN/community/developer-guide/fe
阅读全文
摘要:1 设置 VMware 网络环境 1. 选择VMNet8 并将子网IP 修改为 192.168.10.0,保证集群ip都在这个网段下 2. 选择NAT 设置,配置NAT的网关为 192.168.10.2 2 设置 windows11 网络环境 1. 打开 控制面板\网络和 Internet\网络连接
阅读全文
摘要:出错伪代码如下: //出错的点在这里 import java.util.Date ... val t_rdd = t_frame.rdd.map(row => { val photo_url = row.getAs[String]("photo_url") val longitude = row.g
阅读全文
摘要:项目需求需要空间计算能力,开始选型Sedona(GeoSpark)来完成, 需求需要每一条数据在满足某条件的情况下,去查找某张表进行空间匹配,找到离这个点(point)最近的一条道路(lineString) 第一个方案: 使用sedona来使用临近道路的判断 由于sedona本质还是使用spark的
阅读全文
摘要:项目中用到的模块 API # 模块: import pandas as pd import numpy as np from scipy.optimize import curve_fit numpy np.array 创建ndarray np.polyfit 根据传入的x数组和y数组,及阶数,拟合
阅读全文
摘要:计算2个几何相交结果时候,报错了: val geometry = polygon.intersection(lineString) 日志如下 org.locationtech.jts.geom.TopologyException: found non-noded intersection betwe
阅读全文
摘要:1. 引入jar <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.6.2</versio
阅读全文
摘要:package com.grady.sedona import org.apache.sedona.sql.utils.SedonaSQLRegistrator import org.apache.sedona.viz.core.Serde.SedonaVizKryoRegistrator impo
阅读全文
摘要:package com.grady.geomesa import org.apache.hadoop.conf.Configuration import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkS
阅读全文
摘要:package com.grady.geomesa import org.apache.spark.sql.jts.PointUDT import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType
阅读全文
摘要:package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, SparkSession} /** * csv 文件数据写入hive */ object CsvToHive
阅读全文
摘要:package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, Row, SparkSession} object HiveTableToTable { def main(args
阅读全文
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.Immuta
阅读全文
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.Imm
阅读全文
摘要:package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.{Put, Result} import org.apache.hadoop.hbase
阅读全文
摘要:1. 查看CDH 安装的hadoop 和 hbase 对应的版本 具体可以参考以下博客: https://www.cxyzjd.com/article/spark_Streaming/108762904 直接给出答案 hadoop 版本 3.0.0 hbase 版本 2.1.0 2. 在 githu
阅读全文
摘要:查看hbase版本 hbase(main):002:0> version 2.1.0-cdh6.2.0, rUnknown, Wed Mar 13 23:39:58 PDT 2019 Took 0.0003 seconds Hbase表空间概念 1、介绍 在HBase中,namespace命名空间指
阅读全文