曹伟雄

HBase——Snapshot（快照）

摘要：前言 HBase数据迁移方案有很多种，但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群)。 HBase Snapshots允许你对一个表进行快照（即可用副本），它不会对Region Servers产生很大的影响，它进行复制和恢复操作的时候不包括数阅读全文

posted @ 2020-09-09 09:59 曹伟雄阅读(5674) 评论(0) 推荐(0) 编辑

HBase——Replication（复制）实践

摘要：前言 Replication：复制，指的是持续的将同一份数据拷贝到多个地方进行存储，是各种存储系统中常见而又重要的一个概念，可以指数据库中主库和从库的复制，也可以指分布式集群中多个集群之间的复制，还可以指分布式系统中多个副本之间的复制。它的难点在于数据通常是不断变化的，需要持续的将变化也反映到多阅读全文

posted @ 2020-09-09 09:58 曹伟雄阅读(3655) 评论(0) 推荐(0) 编辑

HBase——Replication（复制）原理

摘要：前言 Replication：复制，指的是持续的将同一份数据拷贝到多个地方进行存储，是各种存储系统中常见而又重要的一个概念，可以指数据库中主库和从库的复制，也可以指分布式集群中多个集群之间的复制，还可以指分布式系统中多个副本之间的复制。它的难点在于数据通常是不断变化的，需要持续的将变化也反映到多阅读全文

posted @ 2020-09-09 09:51 曹伟雄阅读(2778) 评论(0) 推荐(0) 编辑

HBase——冷热分离方案

摘要：前言 HBase是当下流行的一款海量数据存储的分布式数据库。往往海量数据存储会涉及到一个成本问题，如何降低成本。常见的方案就是通过冷热分离来治理数据。冷数据可以用更高的压缩比算法（ZSTD），更低副本数算法（Erasure Coding），更便宜存储设备（HDD，高密集型存储机型）。 HBase冷阅读全文

posted @ 2020-09-09 09:45 曹伟雄阅读(2456) 评论(0) 推荐(0) 编辑

Hadoop——HDFS异构存储&HBase冷热分离

摘要：前言总体上HDFS异构存储的价值在于，根据数据热度采用不同策略从而提升集群整体资源使用效率。对于频繁访问的数据，将其全部或部分保存在更高访问性能的存储介质（内存或SSD）上，提升其读写性能；对于几乎不会访问的数据，保存在归档存储介质上，降低其存储成本。但是HDFS异构存储的配置需要用户对目录阅读全文

posted @ 2020-09-09 09:43 曹伟雄阅读(3719) 评论(0) 推荐(0) 编辑

Linux——防火墙设置

摘要： CentOS 6.X 查看防水墙是否开启 service iptables status 防水墙开启状态：防水墙关闭状态：关闭防火墙 service iptables stop 开机关闭防火墙 chkconfig iptables off CentOS 7.X CentOS 7.0默认使用的是f 阅读全文

posted @ 2020-08-26 10:56 曹伟雄阅读(703) 评论(0) 推荐(1) 编辑

Spark——几种运行模式与作业提交

摘要： Spark-shell 参数 Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上，也可以通过Spark-submit提交指定运用程序，Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的，通过- -help 查看参数： -master: 阅读全文

posted @ 2020-08-26 10:55 曹伟雄阅读(3588) 评论(0) 推荐(0) 编辑

Spark——Structured Streaming 监控Kafka消费进度

摘要：前言 Structured Streaming 消费 Kafka 时并不会将 Offset 提交到 Kafka 集群，本文介绍利用 StreamingQueryListener 间接实现对 Kafka 消费进度的监控。基于StreamingQueryListener向Kafka提交Offset 监阅读全文

posted @ 2020-08-26 10:54 曹伟雄阅读(1812) 评论(1) 推荐(1) 编辑

Hadoop、Spark——完全分布式HA集群搭建

摘要：前言完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行。通常，建议HDFS和YARN以单独的用户身份运行。在大多数安装中，HDFS进程以“hdfs”执行。YARN通常使用“yarn”帐户。搭建分为四个阶段，每一个是环境准备，第二个是Zookeeper集群的搭建，第三是Hado 阅读全文

posted @ 2020-08-26 10:53 曹伟雄阅读(1577) 评论(0) 推荐(0) 编辑

Hadoop——集群参数配置详解

摘要：一、配置文件在hadoop集群中，需要配置的文件主要包括四个，分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml，这四个文件分别是对不同组件的配置参数，主要内容如下表所示：二、配置时重要参数 1、core-site.xml 阅读全文

posted @ 2020-08-26 10:52 曹伟雄阅读(2895) 评论(0) 推荐(0) 编辑