2020 年 8月随笔档案 - 勤奋的园

Centos根目录100%解决思路

摘要：Centos 7 根目录（爆满）100%解决思路，下面以宝塔面板环境为例 1、首先远程到服务器，在~下输入df -h ，看下根目录下文件夹使用情况 [root@localhost~]# df -h Filesystem Size Used Avail Use% Mounted on /dev/vda 阅读全文

posted @ 2020-08-20 17:54 勤奋的园阅读(3443) 评论(0) 推荐(0) 编辑

Hive 中日志的存放位置

摘要：目前hive启动无法成功，想查看下hive的日志定位问题，但发现hive的安装目录下并没有hive的日志，后来经过在网上谷歌发现： Hive中的日志分为两种系统日志，记录了hive的运行情况，错误状况。 Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hi 阅读全文

posted @ 2020-08-20 17:50 勤奋的园阅读(2042) 评论(0) 推荐(0) 编辑

Spark常见问题汇总

摘要：原文地址：https://my.oschina.net/tearsky/blog/629201 摘要： 1、Operation category READ is not supported in state standby 2、配置spark.deploy.recoveryMode选项为ZOOKEE 阅读全文

posted @ 2020-08-20 17:42 勤奋的园阅读(515) 评论(0) 推荐(0) 编辑

Spark RDD的默认分区数：（spark 2.1.0）

摘要：本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线阅读全文

posted @ 2020-08-20 17:38 勤奋的园阅读(550) 评论(0) 推荐(0) 编辑

手动合并hadoop namenode editlog

摘要：一. 基本概念 1.NN恢复实际上是由fsimage开始(这个相当于数据的base)，如果有多个fsimage，会自动选择最大的fsimage，然后按照editlog序列日志开始执行日志 2.seen_txid文件里的值是当前的最大editlog值。如果nn正在运行，则是edits_inprogre 阅读全文

posted @ 2020-08-20 17:33 勤奋的园阅读(951) 评论(0) 推荐(0) 编辑

Yarn参数优化(Fair Scheduler版本)

摘要：YARN 自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源（内存,CPU）以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后Y 阅读全文

posted @ 2020-08-14 10:39 勤奋的园阅读(853) 评论(0) 推荐(0) 编辑

linux中在某个目录下多个文件中搜索关键字

摘要：有四种方法： find 文件目录 -name ‘*.*' -exec grep 'xxx' {} + -n 或是 find 文件目录 -name '*.*' | xargs grep 'xxx' -n 或是 grep 'XXX' 文件目录 -Rn 或是 grep 'XXX' `find 文件目录 - 阅读全文

posted @ 2020-08-11 11:54 勤奋的园阅读(8101) 评论(0) 推荐(0) 编辑

JDK中jps、jinfo、jstat、jstack、jmap、jconsole等命令简介

摘要：JDK提供了几个很实用的工具，如下： jinfo：观察运行中的java程序的运行环境参数：参数包括Java System属性和JVM命令行参数，java class path等信息。命令格式：jinfo 进程pidjps：用来显示本地的java进程，可以查看本地运行着几个java程序，并显示他们的进阅读全文

posted @ 2020-08-10 18:34 勤奋的园阅读(1031) 评论(0) 推荐(0) 编辑

Elasticsearch 为何要在 7.X版本中去除type 的概念

摘要：背景说明 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 Elasticsearch 是一种NoSQL数据库（非关系型数据库），和常规的关系型数据库（比如：MyS 阅读全文

posted @ 2020-08-10 17:20 勤奋的园阅读(529) 评论(0) 推荐(1) 编辑

勤奋的园

08 2020 档案

公告