上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 25 下一页

2020年9月9日

HBase——Snapshot(快照)

摘要: 前言 HBase数据迁移方案有很多种,但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群)。 HBase Snapshots允许你对一个表进行快照(即可用副本),它不会对Region Servers产生很大的影响,它进行复制和恢复操作的时候不包括数 阅读全文

posted @ 2020-09-09 09:59 曹伟雄 阅读(5303) 评论(0) 推荐(0) 编辑

HBase——Replication(复制)实践

摘要: 前言 Replication:复制,指的是持续的将同一份数据拷贝到多个地方进行存储,是各种存储系统中常见而又重要的一个概念, 可以指数据库中主库和从库的复制,也可以指分布式集群中多个集群之间的复制,还可以指分布式系统中多个副本之间的复制。 它的难点在于数据通常是不断变化的,需要持续的将变化也反映到多 阅读全文

posted @ 2020-09-09 09:58 曹伟雄 阅读(3334) 评论(0) 推荐(0) 编辑

HBase——Replication(复制)原理

摘要: 前言 Replication:复制,指的是持续的将同一份数据拷贝到多个地方进行存储,是各种存储系统中常见而又重要的一个概念, 可以指数据库中主库和从库的复制,也可以指分布式集群中多个集群之间的复制,还可以指分布式系统中多个副本之间的复制。 它的难点在于数据通常是不断变化的,需要持续的将变化也反映到多 阅读全文

posted @ 2020-09-09 09:51 曹伟雄 阅读(2581) 评论(0) 推荐(0) 编辑

HBase——冷热分离方案

摘要: 前言 HBase是当下流行的一款海量数据存储的分布式数据库。往往海量数据存储会涉及到一个成本问题,如何降低成本。 常见的方案就是通过冷热分离来治理数据。冷数据可以用更高的压缩比算法(ZSTD),更低副本数算法(Erasure Coding),更便宜存储设备(HDD,高密集型存储机型)。 HBase冷 阅读全文

posted @ 2020-09-09 09:45 曹伟雄 阅读(2370) 评论(0) 推荐(0) 编辑

Hadoop——HDFS异构存储&HBase冷热分离

摘要: 前言 总体上HDFS异构存储的价值在于,根据数据热度采用不同策略从而提升集群整体资源使用效率。 对于频繁访问的数据,将其全部或部分保存在更高访问性能的存储介质(内存或SSD)上,提升其读写性能; 对于几乎不会访问的数据,保存在归档存储介质上,降低其存储成本。 但是HDFS异构存储的配置需要用户对目录 阅读全文

posted @ 2020-09-09 09:43 曹伟雄 阅读(3263) 评论(0) 推荐(0) 编辑

2020年8月26日

Linux——防火墙设置

摘要: CentOS 6.X 查看防水墙是否开启 service iptables status 防水墙开启状态: 防水墙关闭状态: 关闭防火墙 service iptables stop 开机关闭防火墙 chkconfig iptables off CentOS 7.X CentOS 7.0默认使用的是f 阅读全文

posted @ 2020-08-26 10:56 曹伟雄 阅读(680) 评论(0) 推荐(1) 编辑

Spark——几种运行模式与作业提交

摘要: Spark-shell 参数 Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的,通过- -help 查看参数: -master:  阅读全文

posted @ 2020-08-26 10:55 曹伟雄 阅读(3308) 评论(0) 推荐(0) 编辑

Spark——Structured Streaming 监控Kafka消费进度

摘要: 前言 Structured Streaming 消费 Kafka 时并不会将 Offset 提交到 Kafka 集群,本文介绍利用 StreamingQueryListener 间接实现对 Kafka 消费进度的监控。 基于StreamingQueryListener向Kafka提交Offset 监 阅读全文

posted @ 2020-08-26 10:54 曹伟雄 阅读(1749) 评论(1) 推荐(1) 编辑

Hadoop、Spark——完全分布式HA集群搭建

摘要: 前言 完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行。 通常,建议HDFS和YARN以单独的用户身份运行。在大多数安装中,HDFS进程以“hdfs”执行。YARN通常使用“yarn”帐户。 搭建分为四个阶段,每一个是环境准备,第二个是Zookeeper集群的搭建,第三是Hado 阅读全文

posted @ 2020-08-26 10:53 曹伟雄 阅读(1496) 评论(0) 推荐(0) 编辑

Hadoop——集群参数配置详解

摘要: 一、配置文件 在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml, 这四个文件分别是对不同组件的配置参数,主要内容如下表所示: 二、配置时重要参数 1、core-site.xml 阅读全文

posted @ 2020-08-26 10:52 曹伟雄 阅读(2729) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 25 下一页

导航