wen1995 - 博客园

2020年9月26日

摘要： Job提交流程其实流程图的话，已经满天飞了，我也没有搬过来的必要，主要是流程图背后发生了什么，这些事情为什么发生，为什么Hadoop的WordCount本地开发也能运行，同样的代码是怎么提交到集群上的，这些问题如果不看源码，基本都不会知道的，我就简单分析一下吧 : : 若有错误和不足的地方请直接指阅读全文

posted @ 2020-09-26 15:20 wen1995 阅读(401) 评论(0) 推荐(0)

Hadoop数据切片基本原理

摘要：数据切片问题：先给不懂得同学解释一下概念：数据块Block：是HDFS物理数据块，一个大文件丢到HDFS上，会被HDFS切分成指定大小的数据块，即Block 数据切片：数据切片是逻辑概念，只是程序在输入数据的时候对数据进行标记，不会实际切分磁盘数据 Mapper的数量是由切片数量，解释如下切片阅读全文

posted @ 2020-09-26 11:26 wen1995 阅读(1948) 评论(0) 推荐(0)

2020年9月14日

Hadoop-3.x.x配置LZOP压缩

摘要： Hadoop配置文件core-site.xml 添加下列配置 <configuration> <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apac 阅读全文

posted @ 2020-09-14 15:03 wen1995 阅读(334) 评论(0) 推荐(0)

2020年9月11日

YARN Node Lable配置

摘要：标签是做什么的？原汁原味的话，看官网Apache Hadoop-3.1.2 来一个对比，多队列和打标签的区别： 1. 多队列，是将集群汇总的资源按配比划分成多个队列，每个队列的资源对于机器来讲，都是不确定的，比如ABC三个队列每人占总集群资源的30%，A队列的30%是总数的百分比，落实到资源上是不阅读全文

posted @ 2020-09-11 16:44 wen1995 阅读(1351) 评论(0) 推荐(1)

2020年9月9日

Nginx文件服务器

摘要： Ubuntu和CentOS下都一样 sudo apt-get install nginx -y 编辑配置文件/etc/nginx/sites-enabled/default server { listen 80; server_name localhost; root /opt/file_downl 阅读全文

posted @ 2020-09-09 11:17 wen1995 阅读(430) 评论(0) 推荐(0)

2020年9月2日

Flink入门（二）

摘要：接上一篇Flink入门（一）WordCount，Flink得三种运行模式Stand alone，YARN，K8S。我就不多赘述了，主要说一下Flink On YARN 简单粗暴分布讲解： 1. 保证HDFS，YARN集群均开启得前提下，开启Flink得yarn-session hadoop@hado 阅读全文

posted @ 2020-09-02 16:43 wen1995 阅读(505) 评论(0) 推荐(0)

Flink入门（一）

摘要： Flink是标准得实时流计算框架，比起Spark Streaming得微批处理实现得流计算，Flink才是最原生最标准得实时处理，Flink得文档啊介绍啊啥的网上有的是我就不写了，简单得写一些大数据学习起点必学得项目《WordCount》此外，既然讲到WordCount，就要说数据分为有界和无界，阅读全文

posted @ 2020-09-02 13:19 wen1995 阅读(178) 评论(0) 推荐(0)

2020年8月7日

Kafka一些生产环境常见的问题

摘要：这篇没什么顺序，就是单纯的罗列一下常见的问题和可能遇到的问题，问题之间没有关联，后续有新的问题再补充 1. Kafka消息积压，消费能力不足怎么办： 1. 如果是消费能力不足的话，可以提高对应Topic的分区数，同时提升消费者组(Consumer Group)内消费者的数量，要注意分区数等于消费者组阅读全文

posted @ 2020-08-07 10:49 wen1995 阅读(834) 评论(0) 推荐(0)

2020年8月3日

HBase-2.2.4(Snappy)基于YCSB的压测步骤

摘要： HBase2.2.4是截止2020-08-03官方最新的Stable版本，因为做了snappy压缩，但是还未升级到生产环境，需要在测试环境先测试压缩效果的同时也需要测试读写性能 YCSB-0.17.0压测HBase，这个工具不多介绍了，雅虎开源的专门压测NoSQL数据库的 ycsb-0.17.0下载阅读全文

posted @ 2020-08-03 23:26 wen1995 阅读(919) 评论(0) 推荐(0)

Hadoop3.1.3+HBase-2.2.4设置snappy压缩

摘要： HBase支持snappy的前提是hadoop支持snappy，所以需要先从底层，从hadoop开始添加snappy 同时，snappy设置完成为了保险起见可以进行压测，看看集群的效果，存储压缩效果和性能测试，性能测试报告点击这里安装Snappy本地库：下载snappy： hadoop@hado 阅读全文

posted @ 2020-08-03 01:08 wen1995 阅读(1770) 评论(0) 推荐(0)

Maxer

公告