数大招疯-公众号同名

[置顶] HBase中MemStore的刷写触发机制

摘要：触发MemStore刷写的机制大概分为：人为手动触发、HBase定时触发、HLog数量限制触发，其他事件触发（Compact、Split、Truncate等）、内存限制触发。其中内存限制触发细分为：MemStore级别限制触发、Region级别限制触发、RegionServer级别限制触发。阅读全文

posted @ 2021-01-26 21:15 数大招疯-公众号同名阅读(267) 评论(0) 推荐(0)

2023年9月20日

Docker Desktop 界面功能介绍，添加国内镜像源

摘要：默认情况下，Docker Desktop会从Docker Hub下载镜像，但在国内由于网络的原因，下载速度可能较慢，配置国内镜像源可以提速镜像下载。在Docker Desktop中配置镜像源非常简单，点击1、2后，在3处粘贴如下内容，重启生效。阅读全文

posted @ 2023-09-20 23:18 数大招疯-公众号同名阅读(3649) 评论(0) 推荐(0)

2023年9月19日

个人电脑(windows、mac)安装Docker Desktop

摘要：在学习大数据、人工智能等技术时，常常需要安装相应软件来支持我们的学习和实践。然而，很多这样的软件更适合在 Linux 环境下进行部署和运行。通过在个人电脑安装Docker Desktop可以解决该类问题，在个人电脑上轻松地搭建软件环境，以支持我们的技术学习和实践。什么是 Docker？ Docke 阅读全文

posted @ 2023-09-19 22:30 数大招疯-公众号同名阅读(422) 评论(0) 推荐(0)

2022年10月17日

利用杰卡德系数计算文本相似度

摘要：利用杰卡德系数计算文本相似度发布于2022-06-01 08:26:33阅读 21401. 杰卡德相似系数两个集合A和B交集元素的个数在A、B并集中所占的比例，称为这两个集合的杰卡德系数，用符号 J(A,B) 表示。Jaccard相似指数用来度量两个集合之间的相似性。2. 杰卡德距离与杰卡德相似系阅读全文

posted @ 2022-10-17 10:58 数大招疯-公众号同名阅读(370) 评论(0) 推荐(0)

局部敏感哈希（Locality Sensitive Hashing）和MinHash介绍与实例

摘要：在实际应用中，我们所面对的数据是海量的，并且有着很高的维度。在对数据的各种操作中，查询操作是最常见的一种，这里的查询是指输入一个数据，查找与其相似的数据，那么怎样快速地从海量高维数据中，找到与某个数据最相似的数据，成为了一个难点和问题。低维的小数据集，可通过线性查找来解决，但如果是对一个海量的高维阅读全文

posted @ 2022-10-17 10:48 数大招疯-公众号同名阅读(792) 评论(0) 推荐(0)

2022年8月4日

mvn clean package “Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes”

摘要： [ERROR] Failed to execute goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:single (make-assembly) on project biz-spark: Execution make-a 阅读全文

posted @ 2022-08-04 15:40 数大招疯-公众号同名阅读(232) 评论(0) 推荐(0)

2022年5月12日

Maven依赖使用本地仓库

摘要： 1、发布jar到本地maven仓库 mvn install:install-file -DgroupId=org.shims -DartifactId=shims -Dversion=0.9.27.01 -Dpackaging=jar -Dfile=shims/build/libs/shims-0. 阅读全文

posted @ 2022-05-12 11:00 数大招疯-公众号同名阅读(269) 评论(0) 推荐(0)

2022年5月9日

Mac 安装Gradle教程

摘要： brew update && brew install gradle 2.gradle -version 过程可能会需要一段时间，执行结束后，可以使用 gradle -version 查看是否更新成功。阅读全文

posted @ 2022-05-09 16:15 数大招疯-公众号同名阅读(70) 评论(0) 推荐(0)

2022年4月26日

mac thrift 安装

摘要： thrift 依赖 bison，所以需要先安装bison bison安装 1、bison下载链接：http://www.gnu.org/software/bison/ 可以浏览器下载，也可以执行命令下载：wget http://ftp.gnu.org/gnu/bison/bison-3.2.tar. 阅读全文

posted @ 2022-04-26 16:24 数大招疯-公众号同名阅读(624) 评论(0) 推荐(0)

2022年2月24日

cpc、hyperloglog原理简述

摘要： cpc原理简述： cpc、hyperloglog等是使用概率思想实现“去重计数”的方法，该类方法不直接存储数据集合本身，而是通过一定的概率统计方法预估数据集中不重复元素的个数，这种方法可以大大节省内存，同时保证误差控制在一定范围内。 1、基本概率思想伯努利试验：一次实验只有两种结果，比如抛硬币结果阅读全文

posted @ 2022-02-24 14:19 数大招疯-公众号同名阅读(446) 评论(0) 推荐(0)

2022年2月7日

spark 异常:ClassCastException: Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

摘要：最近在执行Hive insert/select语句的过程碰到下面这种类型的异常：异常1： Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.h 阅读全文

posted @ 2022-02-07 15:02 数大招疯-公众号同名阅读(2159) 评论(0) 推荐(0)

2021年10月28日

深入分析Spark UDF的性能

摘要：这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。 Spark提供了多种解决方案来应对复杂挑战，但是我们面临了很多场景，原生的函数不足以解决问题。因此，Spark允许我们注册自定义函数（Use 阅读全文

posted @ 2021-10-28 10:21 数大招疯-公众号同名阅读(577) 评论(0) 推荐(0)

2021年8月6日

Linux CPU个数、CPU核心数、CPU线程数

摘要： CPU个数即CPU芯片个数 CPU的核心数是指物理上，也就是硬件上存在着几个核心。比如，双核就是包括2个相对独立的CPU核心单元组，四核就包含4个相对独立的CPU核心单元组。线程数是一种逻辑的概念，简单地说，就是模拟出的CPU核心数。比如，可以通过一个CPU核心数模拟出2线程的CPU，也就是说，阅读全文

posted @ 2021-08-06 15:14 数大招疯-公众号同名阅读(831) 评论(0) 推荐(0)

Linux性能监控（CPU监控）

摘要： Linux性能监控（CPU监控）主要分为四类： cup监控内存监控命令 IO性能网络性能 cup监控关于CPU，有3个重要的概念：上下文切换（context switchs），运行队列（Run queue）和使用率（utilization）。上下文切换：目前流行的CPU在同一时间内只能运阅读全文

posted @ 2021-08-06 15:11 数大招疯-公众号同名阅读(599) 评论(0) 推荐(0)

2021年2月19日

02 Hive支持的数据类型（ Data Type）

摘要： Hive支持简单、复杂两大类数据类型，简单类型 Hive 简单数据类型 Java 数据类型长度例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte 阅读全文

posted @ 2021-02-19 20:07 数大招疯-公众号同名阅读(697) 评论(0) 推荐(0)

2021年2月9日

04 线程、线程的实现及多线程模型

摘要：线程 60年代，在操作系统中能拥有资源和独立运行的基本单位是进程，然而随着计算机技术的发展，进程出现了很多弊端，一是由于进程是资源拥有者，创建、撤消与切换存在较大的时空开销；二是由于对称多处理机（SMP）出现，可以满足多个运行单位，而多个进程并行开销过大。因此在80年代，出现了线程（Threads）阅读全文

posted @ 2021-02-09 20:51 数大招疯-公众号同名阅读(187) 评论(0) 推荐(0)

2021年2月8日

03 进程通信

摘要：什么是进程通信进程通信是指在进程间传输数据(交换信息)。进程是分配系统资源的单位(包括内存地址空间)，因此各进程拥有的内存地址空间相互独立，而且为了保证安全，一个进程不能直接访问另外一个进程的地址空间。进程通信分为三种方式：共享内存模式、消息传递模式、共享文件模式。共享内存进程通信采用共享内存阅读全文

posted @ 2021-02-08 20:53 数大招疯-公众号同名阅读(155) 评论(0) 推荐(0)

02 进程控制和原语

摘要：什么是进程控制？进程控制的主要功能是对系统中的所有进程实施有效的管理，它具有创建新进程、撤销已有进程、实现进程状态转换等功能。简化理解：进程控制就是实现进程状态转换什么是原语原语是在操作系统中调用核心层子程序的指令。与一般广义指令的区别在于它是不可中断的，而且总是作为一个基本单位出现。它与一般阅读全文

posted @ 2021-02-08 20:35 数大招疯-公众号同名阅读(1105) 评论(0) 推荐(0)

01 进程的组成与状态

摘要：什么是进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的阅读全文

posted @ 2021-02-08 20:34 数大招疯-公众号同名阅读(488) 评论(0) 推荐(0)

2021年2月6日

01 Hive简介、架构、及安装部署模式

摘要：简介 Hive是一个数据仓库基础工具，提供sql查询，并可以将sql语句转换为MapReduce、Tez、Spark等任务，用来处理Hadoop HDFS中的数据，使得查询和分析更加方便。除此外，Hive还讲HDFS上的数据转换为了有行和列的二维表，并提供了统一的元数据管理功能。架构如上所述，H 阅读全文

posted @ 2021-02-06 22:07 数大招疯-公众号同名阅读(665) 评论(0) 推荐(0)

2021年2月2日

SQL JOIN 的常见用法-MySQL、Hive、Spark、Presto

摘要：无论是关系型数据库，还是SQL on Hadoop类的大数据技术组件，都有SQL JOIN功能，join大致分为内连接（inner join）、左外连接（left outer join）、右外连接（right outer join）、全外连接（full outer join）。笛卡尔积要理解各种阅读全文

posted @ 2021-02-02 21:14 数大招疯-公众号同名阅读(672) 评论(1) 推荐(0)

数·大·招·疯

-- 技术原创、优秀文章转载

公告