随笔分类 - 新的数据处理技术
对大数据的认识,和对大数据处理技术的认识,特指狭义的大数据处理技术(hadoop、hbase、hive、sqoop、pig、mahout、avro、zookeeper等,spark)
摘要:提纲 1 简介 2 下载安装 1 简介 1.1 基本情况 Elasticsearch(简称ES)是一个分布式、可扩展、实时的搜索与数据分析引擎。ES不仅仅只是全文搜索,还支持结构化搜索、数据分析、复杂的语言处理、地理位置和对象间关联关系等。 ES的底层依赖Lucene,Lucene可以说是当下最先进
阅读全文
摘要:提纲 1、rabbitmq简介 2、下载安装erlang/otp 3、下载安装rabbitmq 1 rabbitmq简介 MQ全称为Message Queue,即消息队列。它也是一个队列,遵循FIFO原则 。 RabbitMQ是由erlang语言开发,基于AMQP(Advanced Message
阅读全文
摘要:最近看了几篇关于元宇宙的文章,大概搞清楚了元宇宙的含义。下面我总结一下自己的理解。 元宇宙是利用科技手段创造的,与现实世界映射与交互的虚拟世界,具备新型社会体系的数字生活空间。 这个定义出发,首先可以看到元宇宙是一个虚拟世界,定义中其他的部分先不管,抓重点,元宇宙是一个虚拟世界,这是一个基本点,抓住
阅读全文
摘要:搭建kafka集群是需要zookeeper的,可是kafka自身就已经带了一个zookeeper,所以不需要额外搭建zookeeper的集群,只需要将kafka自带的zookeeper配置成一个集群就可以。 目录 1、kafka的下载和安装 2、配置zookeeper 3、配置kafka 4、启动z
阅读全文
摘要:通俗易懂的K8S简介 我想学习k8s好几次了,但是都没有成功学习明白。这次要搞清楚。 1 理解K8S功能 K8S是一个 容器集群 管理系统。也就是说,它是一个管理系统,一个软件,这个软件的功能是管理 容器集群。 那么,这里就出现一个概念——容器集群,什么是容器集群呢? 要搞清楚容器集群这个概念的含义
阅读全文
摘要:SpringKafka消费指定的分区 我在这篇文章里记录一下配置kafkaListener消费指定分区的方法。 之前为了解决kafka消费过慢的问题,查了一些资料,找到一些解决办法,这里做一个总结和整理。 参考资料: 1、https://www.hangge.com/blog/cache/detai
阅读全文
摘要:zk我很早就已经接触过了,但是对它理解的并不深刻。最近这两天,我拉出了以前安装zk时候写的博客文章,重新配置了一遍zk,这次对着自己以前的写的博文,在看了几篇网上专家们写的博客,对zk的安装过程理解的更加清楚了,对zk的配置文件zoo.cfg中各个配置项的含义也理解的更加清晰了。 zk有三种安装方式
阅读全文
摘要:数据处理概论 1、在企业中,往往有不止一个系统,其中有一些系统产生数据,另外一些系统负责消费数据,还有一些系统专门负责存储数据。如下图所示,从图中可以看到一个完整的从数据生成到存储,再到被消费的全景图。 2、 今天看到一个非常清楚的关于数据处理的认识,真知灼见,比很多所谓的学者强多了,收藏在此,细细
阅读全文
摘要:元数据 元数据经常听到,但是理解的并不清楚,这篇文章中,会试着结合目前的hdfs等系统,来搞清楚元数据的概念。 目录 1、元数据的概念 对元数据的概念进行概括,并且举例子阐述元数据是什么。 2、元数据的管理方式 对每一种元数据管理方式进行阐述,同时每一类元数据的管理方式都要举例子说明,这样才能理解清
阅读全文
摘要:SQL和NoSQL 目前的数据库系统非常多,有传统的关系型的数据库系统(又被称为SQL数据库系统),有最近几年流行起来的NoSQL数据库系统。其中NoSQL数据库系统又分为很多种不同的类型,根据各个系统所支持的数据模型的不同,可以分为很多类,下面做一个简单的分类,更多的分类请参见dbengines的
阅读全文
摘要:JanusGraph:图数据库系统简介 图(graph)是《数据结构》课中第一次接触到的一个概念,它是一种用来描述现实世界中个体和个体之间网络关系的数据结构。 为了在计算机中存储图,《数据结构》中初步介绍了图的逻辑结构和存储结构。本文对图的定义、图的作用、图的逻辑结构、图的存储结构进行了回顾,继而引
阅读全文
摘要:1、application是由driver和executor组成的,executor可以分成task,task又可以分成为stage。当一个任务提交给spark之后,spark机群的主节点会出现driver进程,从节点会出现executor进程。 2、standalone部署之后,主节点进程是mas
阅读全文
摘要:ZooKeeper集群搭建过程 提纲 1、ZooKeeper简介 2、ZooKeeper的下载和安装 3、部署3个节点的ZK伪分布式集群 3.1、解压ZooKeeper安装包 3.2、为每个节点建立data目录、logs目录和myid文件 3.3、为每个节点创建配置文件 3.4、启动zk集群 3.5
阅读全文
摘要:商业智能概述 对学习的零散的商业智能知识进行梳理,理出其中的脉络和逻辑,便于查询和阅读。 1、商业智能的定义 2、商业智能的作用和用户 3、商业智能的实施方法 4、数据仓库的实现方法及数据仓库中的数据模型 5、数据处理和分析相关的技术 5.1 Reporting System 5.2 OLAP和多维
阅读全文
摘要:数据库和数据挖掘领域的会议和期刊 数据库领域主要专注于数据库系统和数据管理算法,而数据挖掘主要是专注于数据价值分析算法。 一、数据库领域的主要会议 数据库领域的顶级会议SIGMOD、ICDE、VLDB,下面将对这三大会议进行一下简单介绍。 SIGMOD 是Acm Special Interest G
阅读全文