Leo-Wong

2023年9月12日

摘要：《将博客搬至CSDN》阅读全文

posted @ 2023-09-12 15:51 Leo-Wong 阅读(8) 评论(0) 推荐(0)

2023年7月1日

摘要：首先，这是两个不同的概念，不能混为一谈。 memory leak：内存泄漏； OOM（Out Of Memory）：内存溢出； **什么是内存泄漏？** 简而言之，就是内存里有一块空间，既不能被访问，也不能被GC清理。 **什么事内存溢出？** 直白的说，就是内存空间里面有大量的内存泄漏块存在，找不阅读全文

posted @ 2023-07-01 15:56 Leo-Wong 阅读(67) 评论(0) 推荐(0)

2023年6月14日

jupyter 优化工作空间踩坑记录

摘要：问题：当我们执行完jupyter notebook --generate-config后，找到了jupyter_notebook_config.py，修改了：c.NotebookApp.notebook_dir的默认工作目录但是，当我们cmd执行jupyter启动命令：jupyter noteb 阅读全文

posted @ 2023-06-14 10:18 Leo-Wong 阅读(80) 评论(0) 推荐(0)

2022年12月1日

Python 3.7.8 pip安装numpy报错：Could not find a version that satisfies the requirement numpy (from versions: )

摘要： Python版本：python-3.7.8-amd64.exe 但在安装numpy框架时报错：pip install numpy Looking in indexes: https://opsx.alibaba.com/mirror/ Collecting numpy Retrying (Retry 阅读全文

posted @ 2022-12-01 20:17 Leo-Wong 阅读(4709) 评论(0) 推荐(0)

2022年8月12日

superset连接SQL server数据源时报错：ERROR: (builtins.NoneType) None (Background on this error at: http://sqlalche.me/e/13/dbapi)

摘要：环境信息：数据源版本：SQL server 2008 R2 superset版本：2.0.0【均安装成功，没报错】 py:3.9 配置截图：按照官方文档配置的，感觉都没有问题，但是就是报错，连接失败，头大！！ https://superset.apache.org/docs/databases/ 阅读全文

posted @ 2022-08-12 10:45 Leo-Wong 阅读(2398) 评论(1) 推荐(0)

执行superset db upgrade报错：ModuleNotFoundError: No module named 'werkzeug.wrappers.etag'

摘要：我的Python版本是：3.9【一路升级上来的，py3.7、py3.8都试过了】数据源SQL server【接下来会分享连接SQL server遇到的大坑】在进行初始化Supetset数据库：superset db upgrade命令时报错：ModuleNotFoundError: No mod 阅读全文

posted @ 2022-08-12 09:26 Leo-Wong 阅读(2428) 评论(0) 推荐(0)

2022年7月26日

Tableau基本了解（一）

摘要： Tableau简介：首先，Tableau具有许多理想的和独特的功能。其强大的数据发现和探索应用程序允许您在几秒钟内回答重要的问题。您可以使用Tableau的拖放界面可视化任何数据，探索不同的视图，甚至可以轻松地将多个数据库组合在一起。它不需要任何复杂的脚本。任何理解业务问题的人都可以通过相关数据的阅读全文

posted @ 2022-07-26 23:27 Leo-Wong 阅读(527) 评论(0) 推荐(0)

2022年6月10日

利用Apache artemis搭建物联网MQTT服务器

摘要： 1.1 MQTT简介【百度随处可见】 MQTT（Message Queuing Telemetry Transport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。 MQTT最大阅读全文

posted @ 2022-06-10 21:14 Leo-Wong 阅读(1490) 评论(0) 推荐(0)

2022年5月5日

文字识别：OCR（Optical Character Recognition）高精度的文字检测与识别实践（一）

摘要：近期，由于业务涉及到了一个发票自动识别入库的场景，于是查阅了一些资料，调用百度OCR高精度文字识别API，做了一个小测试。 1、注册一个百度智能云账号，拿到：client_id、client_secret，API Key就是：client_id，| Secret Key 就是 client_secr 阅读全文

posted @ 2022-05-05 10:43 Leo-Wong 阅读(766) 评论(0) 推荐(0)

2022年4月19日

输入地址计算出经纬度一次实践

摘要：注意： 1、提供的地址尽量标准、精确； 2、先到天地图官网注册账号，申请应用，拿到tk，只能计算国内的地址； 3、本文使用的计算接口为“天地图”提供，百度也有类似的接口 package com.test.common.util; import lombok.extern.slf4j.Slf4j; i 阅读全文

posted @ 2022-04-19 17:38 Leo-Wong 阅读(194) 评论(0) 推荐(0)

2021年3月6日

单例模式之懒汉式

摘要：懒汉式单例并非绝对的线程安全的，在高并发的情况下有可能被多个线程会初始化多个实例 package org.study.singleton; /** * 懒汉式单例模式 */ public class LazySingleton { private LazySingleton(){} private 阅读全文

posted @ 2021-03-06 23:07 Leo-Wong 阅读(144) 评论(0) 推荐(0)

归并排序

摘要：归并排序 package org.study.order; import java.util.Arrays; public class MergeSort02 { public static void merge(int[] arr, int left, int mid, int right) { 阅读全文

posted @ 2021-03-06 22:57 Leo-Wong 阅读(27) 评论(0) 推荐(0)

选择排序

摘要：选择排序：典型的比较排序 package org.study.order; import java.util.Arrays; public class SelectionSort01 { public static void main(String[] args) { int[] arr = {5, 阅读全文

posted @ 2021-03-06 22:27 Leo-Wong 阅读(42) 评论(0) 推荐(0)

2021年1月22日

Hive之数据库创建、查询、删除

摘要：创建数据库入门写法： hive (default)> create database test; 注：这个数据库的默认在HDFS上的存储路径是/user/hive/warehouse/*.db 位置配置：hive.metastore.warehouse.dir(例如，/user/hive/ware 阅读全文

posted @ 2021-01-22 23:07 Leo-Wong 阅读(1396) 评论(0) 推荐(0)

（二）hive之分区表

摘要： ###分区表：分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。数仓的核心操作也就是写入和查阅读全文

posted @ 2021-01-22 23:07 Leo-Wong 阅读(600) 评论(0) 推荐(0)

2021年1月21日

Scala映射的使用foldLeft生产实践总结

摘要：示例代码： package sparkstreaming import scala.collection.mutable object SparkStreamingDemo01 { def main(args: Array[String]): Unit = { // 两个Map的数据合并 val m 阅读全文

posted @ 2021-01-21 16:40 Leo-Wong 阅读(167) 评论(0) 推荐(0)

2021年1月19日

SQL之where、hiving、group by的使用总结

摘要： ####SQL的执行先后顺序是：from、where 、join 、on、 group by、 having 、select 、distinct、 union、 order by、 limit 执行的过程解释： from：将数据从硬盘加载到数据缓冲区，方便对接下来的数据进行操作。 where：从基表阅读全文

posted @ 2021-01-19 21:57 Leo-Wong 阅读(1108) 评论(0) 推荐(0)

（五）hive之窗口函数

摘要： hive窗口函数：官方文档地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口：函数运行时计算的数据集的范围；函数：运行时对数据集所执行的函数仅仅支持以下函数：阅读全文

posted @ 2021-01-19 21:56 Leo-Wong 阅读(696) 评论(0) 推荐(0)

2021年1月15日

Apache Flink简介及应用

摘要：简介 Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。 Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。接下来，我们来介绍一下 Flink 架构中的重要方面。处理无界和有界数据任何类型的数据都可以形成一种事件流。信用阅读全文

posted @ 2021-01-15 08:35 Leo-Wong 阅读(795) 评论(0) 推荐(1)

2021年1月13日

（一）Spark 特点

摘要： Spark的特性主要有以下四点：快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流易用 Spark 支持 S 阅读全文

posted @ 2021-01-13 08:49 Leo-Wong 阅读(1678) 评论(0) 推荐(0)

flink之watermark的设定

摘要： 1、在flink中，watermark由应用程序开发人员生成，这通常需要对相应的领域有一定的了解，然后根据实际情况，总结得到经验值。 2、如果设置延迟太久，收到的结果的速度可能会很慢，解决办法是在在watermark到达之前输出一个近似的结果。 3、如果watermark到达的太早，则可能收到错误的阅读全文

posted @ 2021-01-13 08:06 Leo-Wong 阅读(429) 评论(0) 推荐(0)

2021年1月12日

（四）Spark之Local运行环境搭建

摘要：环境准备： OS环境：CentOS 7（本示例运行环境） JVM运行环境：JKD1.8 安装参考文章：https://blog.csdn.net/qq_32786873/article/details/78749384?utm_medium=distribute.pc_relevant.none-t 阅读全文

posted @ 2021-01-12 21:43 Leo-Wong 阅读(244) 评论(0) 推荐(0)

（三）Spark核心概念

摘要： Spark属性列表 Driver program(驱动程序) 每个 Spark 应用程序都包含一个驱动程序, 驱动程序负责把并行操作发布到集群上. 驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 在前面的wordcount案例集中, spark-shell 就是我阅读全文

posted @ 2021-01-12 21:08 Leo-Wong 阅读(174) 评论(0) 推荐(0)

生产场景数据湖平台建设实践

摘要：【本文系转载，非本人原创，仅供参考学习】原文链接： https://www.sohu.com/a/231709205_223866 数据湖平台简介数据湖平台是一套混合架构，以传统Oracle与华为FusionInsight HD&LibrA为主，依托统一融合的数据平台，全流程拉通公司产品的研发制阅读全文

posted @ 2021-01-12 10:32 Leo-Wong 阅读(695) 评论(0) 推荐(0)

2021年1月11日

Scala之Fold：foldRight()与foldLeft()详解

摘要： Fold折叠：化简的一种特殊情况，foldRight()：右折叠，foldLeft()左折叠 override /*TraversableLike*/ def foldLeft[B](z: B)(f: (B, A) => B): B = { var acc = z var these = this 阅读全文

posted @ 2021-01-11 19:32 Leo-Wong 阅读(1911) 评论(0) 推荐(2)

Windows系统搭建Scala开发环境

摘要： Scala语言特点 Scala是一门以Java虚拟机（JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言，Scala是一门多范式的编程语言，Scala支持面向对象和函数式编程，Scala源代码（.scala）会被编译成Java字节码（.class），然后运行于JVM之上阅读全文

posted @ 2021-01-11 11:49 Leo-Wong 阅读(737) 评论(0) 推荐(0)

2021年1月10日

（四）hive之分桶表

摘要：分桶表数据存储分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。创建分桶表 create table s 阅读全文

posted @ 2021-01-10 19:54 Leo-Wong 阅读(632) 评论(0) 推荐(0)

（三）Hive数仓之DML操作

摘要： ####数据导入到hive（Load）语法： hive> load data [local] inpath '/filePath/filename.txt' [overwrite] into table tableName [partition (partcol1=val1,…)]; 释义： lo 阅读全文

posted @ 2021-01-10 16:44 Leo-Wong 阅读(200) 评论(0) 推荐(0)

Hive支持的数据类型

摘要： ###数据类型：基本数据类型、集合数据类型 ####基本数据类型 ####集合数据类型 ####建表语句： create table test( name string, friends array<string>, children map<string, int>, address struct 阅读全文

posted @ 2021-01-10 12:03 Leo-Wong 阅读(766) 评论(0) 推荐(0)

使用DBeaver客户端工具连接Hive

摘要： ####在hive命令行、或者开启hiveserver2使用beeline连接hive去查询特别的繁琐，操作也没有那么方便，下面给大家推荐一个程序员爱不释手的高效的开发工具：DBeaver，他来了！ #####可以看到可以用这个客户端连接：mysql、Oracle、hive等。下载地址：链接：h 阅读全文

posted @ 2021-01-10 00:09 Leo-Wong 阅读(1947) 评论(1) 推荐(0)

公告