摘要: 触发MemStore刷写的机制大概分为:人为手动触发、HBase定时触发、HLog数量限制触发,其他事件触发(Compact、Split、Truncate等)、内存限制触发。其中内存限制触发细分为:MemStore级别限制触发、Region级别限制触发、RegionServer级别限制触发。 阅读全文
posted @ 2021-01-26 21:15 数大招疯-公众号同名 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 默认情况下,Docker Desktop会从Docker Hub下载镜像,但在国内由于网络的原因,下载速度可能较慢,配置国内镜像源可以提速镜像下载。在Docker Desktop中配置镜像源非常简单,点击1、2后,在3处粘贴如下内容,重启生效。 阅读全文
posted @ 2023-09-20 23:18 数大招疯-公众号同名 阅读(2019) 评论(0) 推荐(0) 编辑
摘要: 在学习大数据、人工智能等技术时,常常需要安装相应软件来支持我们的学习和实践。然而,很多这样的软件更适合在 Linux 环境下进行部署和运行。通过在个人电脑安装Docker Desktop可以解决该类问题,在个人电脑上轻松地搭建软件环境,以支持我们的技术学习和实践。 什么是 Docker? Docke 阅读全文
posted @ 2023-09-19 22:30 数大招疯-公众号同名 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 利用杰卡德系数计算文本相似度发布于2022-06-01 08:26:33阅读 21401. 杰卡德相似系数两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。Jaccard相似指数用来度量两个集合之间的相似性。2. 杰卡德距离 与杰卡德相似系 阅读全文
posted @ 2022-10-17 10:58 数大招疯-公众号同名 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,我们所面对的数据是海量的,并且有着很高的维度。在对数据的各种操作中,查询操作是最常见的一种,这里的查询是指输入一个数据,查找与其相似的数据,那么怎样快速地从海量高维数据中,找到与某个数据最相似的数据,成为了一个难点和问题。 低维的小数据集,可通过线性查找来解决,但如果是对一个海量的高维 阅读全文
posted @ 2022-10-17 10:48 数大招疯-公众号同名 阅读(527) 评论(0) 推荐(0) 编辑
摘要: [ERROR] Failed to execute goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:single (make-assembly) on project biz-spark: Execution make-a 阅读全文
posted @ 2022-08-04 15:40 数大招疯-公众号同名 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1、发布jar到本地maven仓库 mvn install:install-file -DgroupId=org.shims -DartifactId=shims -Dversion=0.9.27.01 -Dpackaging=jar -Dfile=shims/build/libs/shims-0. 阅读全文
posted @ 2022-05-12 11:00 数大招疯-公众号同名 阅读(215) 评论(0) 推荐(0) 编辑
摘要: brew update && brew install gradle 2.gradle -version 过程可能会需要一段时间,执行结束后,可以使用 gradle -version 查看是否更新成功。 阅读全文
posted @ 2022-05-09 16:15 数大招疯-公众号同名 阅读(45) 评论(0) 推荐(0) 编辑
摘要: thrift 依赖 bison,所以需要先安装bison bison安装 1、bison下载链接:http://www.gnu.org/software/bison/ 可以浏览器下载,也可以执行命令下载:wget http://ftp.gnu.org/gnu/bison/bison-3.2.tar. 阅读全文
posted @ 2022-04-26 16:24 数大招疯-公众号同名 阅读(528) 评论(0) 推荐(0) 编辑
摘要: cpc原理简述: cpc、hyperloglog等是使用概率思想实现“去重计数”的方法,该类方法不直接存储数据集合本身,而是通过一定的概率统计方法预估数据集中不重复元素的个数,这种方法可以大大节省内存,同时保证误差控制在一定范围内。 1、基本概率思想 伯努利试验:一次实验只有两种结果,比如抛硬币结果 阅读全文
posted @ 2022-02-24 14:19 数大招疯-公众号同名 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 最近在执行Hive insert/select语句的过程碰到下面这种类型的异常: 异常1: Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.h 阅读全文
posted @ 2022-02-07 15:02 数大招疯-公众号同名 阅读(1693) 评论(0) 推荐(0) 编辑
摘要: 这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。 Spark提供了多种解决方案来应对复杂挑战, 但是我们面临了很多场景, 原生的函数不足以解决问题。因此,Spark允许我们注册自定义函数(Use 阅读全文
posted @ 2021-10-28 10:21 数大招疯-公众号同名 阅读(428) 评论(0) 推荐(0) 编辑
摘要: CPU个数即CPU芯片个数 CPU的核心数是指物理上,也就是硬件上存在着几个核心。比如,双核就是包括2个相对独立的CPU核心单元组,四核就包含4个相对独立的CPU核心单元组。 线程数是一种逻辑的概念,简单地说,就是模拟出的CPU核心数。 比如,可以通过一个CPU核心数模拟出2线程的CPU,也就是说, 阅读全文
posted @ 2021-08-06 15:14 数大招疯-公众号同名 阅读(747) 评论(0) 推荐(0) 编辑
摘要: Linux性能监控(CPU监控) 主要分为四类: cup监控 内存监控命令 IO性能 网络性能 cup监控 关于CPU,有3个重要的概念:上下文切换(context switchs),运行队列(Run queue)和使用率(utilization)。 上下文切换: 目前流行的CPU在同一时间内只能运 阅读全文
posted @ 2021-08-06 15:11 数大招疯-公众号同名 阅读(516) 评论(0) 推荐(0) 编辑
摘要: Hive支持简单、复杂两大类数据类型, 简单类型 Hive 简单数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte 阅读全文
posted @ 2021-02-19 20:07 数大招疯-公众号同名 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 线程 60年代,在操作系统中能拥有资源和独立运行的基本单位是进程,然而随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建、撤消与切换存在较大的时空开销;二是由于对称多处理机(SMP)出现,可以满足多个运行单位,而多个进程并行开销过大。因此在80年代,出现了线程(Threads) 阅读全文
posted @ 2021-02-09 20:51 数大招疯-公众号同名 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 什么是进程通信 进程通信是指在进程间传输数据(交换信息)。进程是分配系统资源的单位(包括内存地址空间),因此各进程拥有的内存地址空间相互独立,而且为了保证安全,一个进程不能直接访问另外一个进程的地址空间。进程通信分为三种方式:共享内存模式、消息传递模式、共享文件模式。 共享内存 进程通信采用共享内存 阅读全文
posted @ 2021-02-08 20:53 数大招疯-公众号同名 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 什么是进程控制? 进程控制的主要功能是对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。简化理解:进程控制就是实现进程状态转换 什么是原语 原语是在操作系统中调用核心层子程序的指令。与一般广义指令的区别在于它是不可中断的,而且总是作为一个基本单位出现。它与一般 阅读全文
posted @ 2021-02-08 20:35 数大招疯-公众号同名 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: 什么是进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的 阅读全文
posted @ 2021-02-08 20:34 数大招疯-公众号同名 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 简介 Hive是一个数据仓库基础工具,提供sql查询,并可以将sql语句转换为MapReduce、Tez、Spark等任务,用来处理Hadoop HDFS中的数据,使得查询和分析更加方便。除此外,Hive还讲HDFS上的数据转换为了有行和列的二维表,并提供了统一的元数据管理功能。 架构 如上所述,H 阅读全文
posted @ 2021-02-06 22:07 数大招疯-公众号同名 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 无论是关系型数据库,还是SQL on Hadoop类的大数据技术组件,都有SQL JOIN功能,join大致分为内连接(inner join)、左外连接(left outer join)、右外连接(right outer join)、全外连接(full outer join)。 笛卡尔积 要理解各种 阅读全文
posted @ 2021-02-02 21:14 数大招疯-公众号同名 阅读(545) 评论(1) 推荐(0) 编辑