wen1995 - 博客园

2020年7月15日

摘要： Hadoop原生的计算框架MapReduce，简单概括一下：进程量级很重，启动很慢，但能承载的数据量很大，效率相较于Spark微批处理和Flink实时来讲很慢，Shuffle任何一个写MR同学都必须掌握的东西，说难不难，说简单也不简单 MapReduce程序的五个阶段： input map shuf 阅读全文

posted @ 2020-07-15 13:37 wen1995 阅读(355) 评论(0) 推荐(0)

2020年7月14日

记一次HDFS配置被覆盖的修复步骤

摘要：这个事情的背景是公司的Hadoop生态集群都是原生的，不是基于CDH的，所以基本所有的东西都需要自己手动管理，比如集群修改一些属性，然后批量分发重启或者动态生效之类的。这次也算不上事故，因为没对生产环境造成什么影响，但是差一点就变成事故，写出来分享一下。事情简单概括就是，60+台hadoop的集群阅读全文

posted @ 2020-07-14 12:15 wen1995 阅读(583) 评论(0) 推荐(0)

2020年7月13日

Kafka进阶知识（一）

摘要： Kafka吞吐量大，延迟低，高可用，都是怎么实现的？废话不多说，往下看关于kafka的基础概念相关的问题比如基本的架构原理，搭建等等我就不讲了，我讲一些比这些稍微底层一点的东西，有大牛发现不当之处请评论区指正 1. 高吞吐，低延迟的实现应该先讲低延迟，如果延迟高的话吞吐量是上不去的。低延迟的实现阅读全文

posted @ 2020-07-13 22:08 wen1995 阅读(175) 评论(0) 推荐(0)

Hadoop进阶命令使用介绍

摘要： hadoop生产环境的使用是很复杂的，有些公司是CDH或者Ambari等管理工具运维的，有些是原生的集群俗称裸奔，前者优缺点是运维，查看监控等容易，对于底层理解不友好；裸奔集群反之，裸奔集群的很多东西都需要定制和自己开发，比如监控用zabbix，告警用企业微信，节点的异构严重的，需要二次开发配置文件阅读全文

posted @ 2020-07-13 12:54 wen1995 阅读(672) 评论(0) 推荐(0)

2020年7月7日

Jetbrains DataGrip连接Hive2.3.6

摘要：先默认你已经装好了Hive，我之前连接失败主要是缺最后一条配置，具体配置如下： 1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 <configuration> 4 <pro 阅读全文

posted @ 2020-07-07 16:45 wen1995 阅读(1060) 评论(0) 推荐(1)

Maxer

公告