会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据小码农
代码改变世界
博客园
首页
新随笔
联系
管理
订阅
2023年7月6日
Apache Pulsar 分布式部署
摘要: #1.Pulsar 简介 Pulsar 是一个支持多租户的、高性能的消息中间件;最初是由 Yahoo 研发的开源,分布式pub-sub系统,现在是Apache的一个顶级开源项目 Pulsar 提供了四种订阅类型,它们可以共存在同一个主题上,以订阅名进行区分: - 独享(exclusive)订阅——一
阅读全文
posted @ 2023-07-06 18:37 大数据小码农
阅读(126)
评论(0)
推荐(0)
2022年11月21日
ElasticSearch关于term&terms搜索大小写问题
摘要: 最近在es使用term查询是,发现查询结果一直为空 GET /movies/_doc/100 结果: { "_index" : "movies", "_type" : "_doc", "_id" : "100", "_version" : 1, "_seq_no" : 237, "_primary_
阅读全文
posted @ 2022-11-21 09:43 大数据小码农
阅读(957)
评论(0)
推荐(0)
2020年4月23日
Nginx 安装部署
摘要: 1.下载 nginx 及相关组件 ~~~ wget http://nginx.org/download/nginx 1.10.2.tar.gz wget http://www.openssl.org/source/openssl fips 2.0.10.tar.gz wget http://zlib
阅读全文
posted @ 2020-04-23 22:59 大数据小码农
阅读(146)
评论(0)
推荐(0)
MPP架构
摘要: 1.数据库架构设计 Shared Everthing:完全透明共享 CPU/MEMORY/IO,并行处理能力是最差的;如:SQL Server Shared Storage:各个处理单元使用自己的私有 CPU 和 Memory,共享磁盘系统; Shared Nothing:各个处理单元都有自己私有的
阅读全文
posted @ 2020-04-23 22:25 大数据小码农
阅读(2886)
评论(0)
推荐(0)
2020年4月2日
Presto 安装部署
摘要: #1.版本选型 hadoop-3.1.3 hive-3.1.2 presto-0.233.1 #2.Presto 简介 详细参考:https://prestodb.github.io/docs/current/connector.html ####2.1 Presto 优势 多数据源,支持SQL,自
阅读全文
posted @ 2020-04-02 23:54 大数据小码农
阅读(5803)
评论(1)
推荐(1)
基于MaxWell 实时同步 MySQL 日志 binlog 到 Kafka
摘要: 1.项目背景 1.1 MaxWell 介绍 Maxwell是一个守护进程,它能监听并读取MySQL的binlog,然后解析输出为json,支持将数据输出到Kafka、Kinesis或其他流媒体平台,支持库和表的过滤。 地址:https://github.com/zendesk/maxwell 1.2
阅读全文
posted @ 2020-04-02 22:32 大数据小码农
阅读(3607)
评论(0)
推荐(1)
2020年3月29日
大数据平台搭建:Hadoop-3.1.3+Hive-3.1.2+HBase-2.2.3+Zookeeper-3.5.7+Kafka_2.11-2.4.0+Spark-2.4.5
摘要: #1.框架选型 hadoop-3.1.3 hive-3.1.2 zookeeper-3.5.7 hbase-2.2.3 kafka_2.11-2.4.0 spark-2.4.5-bin-hadoop2.7 #2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密
阅读全文
posted @ 2020-03-29 23:34 大数据小码农
阅读(4923)
评论(1)
推荐(2)
2020年2月12日
Impala & Hive 使用复杂数据类型
摘要: 1. 环境 CDH 5.16.1 2. Hive 使用复杂数据类型 2.1 数据格式 ~~~ 1 zhangsan:man football,basketball 2 lisi:female sing,dance ~~~ 2.2 Hive 建表 ~~~ create table studentInf
阅读全文
posted @ 2020-02-12 01:01 大数据小码农
阅读(2170)
评论(0)
推荐(0)
2020年2月3日
Log4j整合Flume
摘要: 1.环境 CDH 5.16.1 Spark 2.3.0 cloudera4 Kafka 2.1.0+kafka4.0.0 2.Log4j—— Flume 2.1 Log4j 产生日志 ~~~ import org.apache.log4j.Logger; / @ClassName LoggerGen
阅读全文
posted @ 2020-02-03 23:27 大数据小码农
阅读(377)
评论(0)
推荐(0)
2020年2月2日
ClickHouse 详解
摘要: 1. 简介 官方文档:https://clickhouse.yandex/docs ClickHouse 是一个 采用列式存储 ,用于联机分析(OLAP)的数据库管理系统(DBMS) 2.ClickHouse 的优点 2.1 "真正"的列式存储 一个真正的列式存储的数据库管理系统中,除了数据本身之外
阅读全文
posted @ 2020-02-02 23:58 大数据小码农
阅读(8308)
评论(0)
推荐(0)
下一页
公告