摘要: 《将博客搬至CSDN》 阅读全文
posted @ 2023-09-12 15:51 Leo-Wong 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 首先,这是两个不同的概念,不能混为一谈。 memory leak:内存泄漏; OOM(Out Of Memory):内存溢出; **什么是内存泄漏?** 简而言之,就是内存里有一块空间,既不能被访问,也不能被GC清理。 **什么事内存溢出?** 直白的说,就是内存空间里面有大量的内存泄漏块存在,找不 阅读全文
posted @ 2023-07-01 15:56 Leo-Wong 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 问题: 当我们执行完jupyter notebook --generate-config后,找到了jupyter_notebook_config.py,修改了:c.NotebookApp.notebook_dir的默认工作目录 但是,当我们cmd执行jupyter启动命令:jupyter noteb 阅读全文
posted @ 2023-06-14 10:18 Leo-Wong 阅读(38) 评论(0) 推荐(0) 编辑
摘要: Python版本:python-3.7.8-amd64.exe 但在安装numpy框架时报错:pip install numpy Looking in indexes: https://opsx.alibaba.com/mirror/ Collecting numpy Retrying (Retry 阅读全文
posted @ 2022-12-01 20:17 Leo-Wong 阅读(4127) 评论(0) 推荐(0) 编辑
摘要: 环境信息: 数据源版本:SQL server 2008 R2 superset版本:2.0.0【均安装成功,没报错】 py:3.9 配置截图: 按照官方文档配置的,感觉都没有问题,但是就是报错,连接失败,头大!! https://superset.apache.org/docs/databases/ 阅读全文
posted @ 2022-08-12 10:45 Leo-Wong 阅读(2095) 评论(1) 推荐(0) 编辑
摘要: 我的Python版本是:3.9【一路升级上来的,py3.7、py3.8都试过了】 数据源SQL server【接下来会分享连接SQL server遇到的大坑】 在进行初始化Supetset数据库:superset db upgrade命令时报错:ModuleNotFoundError: No mod 阅读全文
posted @ 2022-08-12 09:26 Leo-Wong 阅读(2356) 评论(0) 推荐(0) 编辑
摘要: Tableau简介: 首先,Tableau具有许多理想的和独特的功能。其强大的数据发现和探索应用程序允许您在几秒钟内回答重要的问题。您可以使用Tableau的拖放界面可视化任何数据,探索不同的视图,甚至可以轻松地将多个数据库组合在一起。它不需要任何复杂的脚本。任何理解业务问题的人都可以通过相关数据的 阅读全文
posted @ 2022-07-26 23:27 Leo-Wong 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1.1 MQTT简介【百度随处可见】 MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅(publish/subscribe)模式的"轻量级"通讯协议,该协议构建于TCP/IP协议上,由IBM在1999年发布。 MQTT最大 阅读全文
posted @ 2022-06-10 21:14 Leo-Wong 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 近期,由于业务涉及到了一个发票自动识别入库的场景,于是查阅了一些资料,调用百度OCR高精度文字识别API,做了一个小测试。 1、注册一个百度智能云账号,拿到:client_id、client_secret,API Key就是:client_id,| Secret Key 就是 client_secr 阅读全文
posted @ 2022-05-05 10:43 Leo-Wong 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 注意: 1、提供的地址尽量标准、精确; 2、先到天地图官网注册账号,申请应用,拿到tk,只能计算国内的地址; 3、本文使用的计算接口为“天地图”提供,百度也有类似的接口 package com.test.common.util; import lombok.extern.slf4j.Slf4j; i 阅读全文
posted @ 2022-04-19 17:38 Leo-Wong 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 懒汉式单例并非绝对的线程安全的,在高并发的情况下有可能被多个线程会初始化多个实例 package org.study.singleton; /** * 懒汉式单例模式 */ public class LazySingleton { private LazySingleton(){} private 阅读全文
posted @ 2021-03-06 23:07 Leo-Wong 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 归并排序 package org.study.order; import java.util.Arrays; public class MergeSort02 { public static void merge(int[] arr, int left, int mid, int right) { 阅读全文
posted @ 2021-03-06 22:57 Leo-Wong 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 选择排序:典型的比较排序 package org.study.order; import java.util.Arrays; public class SelectionSort01 { public static void main(String[] args) { int[] arr = {5, 阅读全文
posted @ 2021-03-06 22:27 Leo-Wong 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 创建数据库 入门写法: hive (default)> create database test; 注:这个数据库的默认在HDFS上的存储路径是/user/hive/warehouse/*.db 位置配置:hive.metastore.warehouse.dir(例如,/user/hive/ware 阅读全文
posted @ 2021-01-22 23:07 Leo-Wong 阅读(1311) 评论(0) 推荐(0) 编辑
摘要: ###分区表: 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。数仓的核心操作也就是写入和查 阅读全文
posted @ 2021-01-22 23:07 Leo-Wong 阅读(552) 评论(0) 推荐(0) 编辑
摘要: 示例代码: package sparkstreaming import scala.collection.mutable object SparkStreamingDemo01 { def main(args: Array[String]): Unit = { // 两个Map的数据合并 val m 阅读全文
posted @ 2021-01-21 16:40 Leo-Wong 阅读(136) 评论(0) 推荐(0) 编辑
摘要: ####SQL的执行先后顺序是:from、where 、join 、on、 group by、 having 、select 、distinct、 union、 order by、 limit 执行的过程解释: from:将数据从硬盘加载到数据缓冲区,方便对接下来的数据进行操作。 where:从基表 阅读全文
posted @ 2021-01-19 21:57 Leo-Wong 阅读(1040) 评论(0) 推荐(0) 编辑
摘要: hive窗口函数: 官方文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口: 函数运行时计算的数据集的范围; 函数: 运行时对数据集所执行的函数 仅仅支持以下函数: 阅读全文
posted @ 2021-01-19 21:56 Leo-Wong 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 简介 Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。 Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。 接下来,我们来介绍一下 Flink 架构中的重要方面。 处理无界和有界数据 任何类型的数据都可以形成一种事件流。信用 阅读全文
posted @ 2021-01-15 08:35 Leo-Wong 阅读(705) 评论(0) 推荐(1) 编辑
摘要: Spark的特性主要有以下四点: 快速 与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流 易用 Spark 支持 S 阅读全文
posted @ 2021-01-13 08:49 Leo-Wong 阅读(1590) 评论(0) 推荐(0) 编辑
摘要: 1、在flink中,watermark由应用程序开发人员生成,这通常需要对相应的领域有一定的了解,然后根据实际情况,总结得到经验值。 2、如果设置延迟太久,收到的结果的速度可能会很慢,解决办法是在在watermark到达之前输出一个近似的结果。 3、如果watermark到达的太早,则可能收到错误的 阅读全文
posted @ 2021-01-13 08:06 Leo-Wong 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 环境准备: OS环境:CentOS 7(本示例运行环境) JVM运行环境:JKD1.8 安装参考文章:https://blog.csdn.net/qq_32786873/article/details/78749384?utm_medium=distribute.pc_relevant.none-t 阅读全文
posted @ 2021-01-12 21:43 Leo-Wong 阅读(211) 评论(0) 推荐(0) 编辑
摘要: Spark属性列表 Driver program(驱动程序) 每个 Spark 应用程序都包含一个驱动程序, 驱动程序负责把并行操作发布到集群上. 驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 在前面的wordcount案例集中, spark-shell 就是我 阅读全文
posted @ 2021-01-12 21:08 Leo-Wong 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 【本文系转载,非本人原创,仅供参考学习】 原文链接: https://www.sohu.com/a/231709205_223866 数据湖平台简介 数据湖平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制 阅读全文
posted @ 2021-01-12 10:32 Leo-Wong 阅读(642) 评论(0) 推荐(0) 编辑
摘要: Fold折叠:化简的一种特殊情况,foldRight():右折叠,foldLeft()左折叠 override /*TraversableLike*/ def foldLeft[B](z: B)(f: (B, A) => B): B = { var acc = z var these = this 阅读全文
posted @ 2021-01-11 19:32 Leo-Wong 阅读(1719) 评论(0) 推荐(0) 编辑
摘要: Scala语言特点 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言,Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程,Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上 阅读全文
posted @ 2021-01-11 11:49 Leo-Wong 阅读(698) 评论(0) 推荐(0) 编辑
摘要: 分桶表数据存储 分区针对的是数据的存储路径;分桶针对的是数据文件。 分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。 分桶是将数据集分解成更容易管理的若干部分的另一个技术。 创建分桶表 create table s 阅读全文
posted @ 2021-01-10 19:54 Leo-Wong 阅读(578) 评论(0) 推荐(0) 编辑
摘要: ####数据导入到hive(Load) 语法: hive> load data [local] inpath '/filePath/filename.txt' [overwrite] into table tableName [partition (partcol1=val1,…)]; 释义: lo 阅读全文
posted @ 2021-01-10 16:44 Leo-Wong 阅读(169) 评论(0) 推荐(0) 编辑
摘要: ###数据类型:基本数据类型、集合数据类型 ####基本数据类型 ####集合数据类型 ####建表语句: create table test( name string, friends array<string>, children map<string, int>, address struct 阅读全文
posted @ 2021-01-10 12:03 Leo-Wong 阅读(752) 评论(0) 推荐(0) 编辑
摘要: ####在hive命令行、或者开启hiveserver2使用beeline连接hive去查询特别的繁琐,操作也没有那么方便,下面给大家推荐一个程序员爱不释手的高效的开发工具:DBeaver,他来了! #####可以看到可以用这个客户端连接:mysql、Oracle、hive等。 下载地址: 链接:h 阅读全文
posted @ 2021-01-10 00:09 Leo-Wong 阅读(1671) 评论(1) 推荐(0) 编辑