大数据技术派

2021年10月13日

摘要： 1、集群的最主要瓶颈磁盘IO 2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1）Zookeeper：是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务，配置维护，命名服务。 2）Flume：一个高可用的，高可靠的，阅读全文

posted @ 2021-10-13 12:44 大数据技术派阅读(349) 评论(0) 推荐(0)

2021年10月10日

mysql int(3)与int(10)的数值范围相同吗？

摘要：提问： mysql的字段，unsigned int(3), 和unsinged int(6), 能存储的数值范围是否相同。如果不同，分别是多大？回答：不同，int(3)最多显示3位无符号整体，int(6)最多显示6位无符号数。如果你的答案和上面的一致，恭喜你和我犯了一样的错误。真实情况： i 阅读全文

posted @ 2021-10-10 18:34 大数据技术派阅读(402) 评论(2) 推荐(0)

2021年10月8日

Hbase修复工具Hbck

摘要：因为前面Hbase2集群出现过一次故障，当时花了一个周末才修好，就去了解整理了一些hbase故障的，事故现场可以看前面写的一篇：Hbase集群挂掉的一次惊险经历一. HBCK一致性一致性是指Region在meta中的meta表信息、在线Regionserver的Region信息和hdfs的Reg 阅读全文

posted @ 2021-10-08 22:54 大数据技术派阅读(3227) 评论(0) 推荐(0)

2021年10月2日

docker 安装 wordpress，通过nginx反向代理，绑定域名，配置https

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。假设docker已经安装好了，如果没有安装，可以照着 5分钟安装docker教程安装一下。一. 下载镜像默认下载最新版本，如果想指定对应版本，可以用冒号后加版本，像这样mysql:5.7： docker pull mysql:5.7 阅读全文

posted @ 2021-10-02 17:01 大数据技术派阅读(5986) 评论(3) 推荐(2)

2021年9月20日

彻底解决Hive小文件问题

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该阅读全文

posted @ 2021-09-20 14:02 大数据技术派阅读(4367) 评论(0) 推荐(0)

2021年9月19日

一文彻底搞懂Hive的数据存储与压缩

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。行存储与列存储当今的数据处理大致可分为两大类，联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=，OLTP 是传统阅读全文

posted @ 2021-09-19 19:54 大数据技术派阅读(2439) 评论(0) 推荐(0)

2021年7月23日

YARN调度器(Scheduler)详解

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本阅读全文

posted @ 2021-07-23 14:13 大数据技术派阅读(700) 评论(0) 推荐(0)

2021年6月16日

hbase统计表的行数的三种方法

摘要：有些时候需要我们去统计某一个hbase表的行数，由于hbase本身不支持SQL语言，只能通过其他方式实现。可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test： hbase(main):009:0> scan 'test:test' ROW COLUMN+ 阅读全文

posted @ 2021-06-16 22:27 大数据技术派阅读(1791) 评论(0) 推荐(0)

2021年6月10日

Flink实时计算pv、uv的几种方法

摘要： Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Ta 阅读全文

posted @ 2021-06-10 23:07 大数据技术派阅读(2400) 评论(0) 推荐(0)

2021年6月9日

Hadoop 数据迁移用法详解

摘要： Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文

posted @ 2021-06-09 23:32 大数据技术派阅读(1059) 评论(0) 推荐(1)

大数据技术派

关注公众号：大数据技术派，回复“资料”，领取1000G资料。

公告