摘要:
端午节佳节从CSDN博客搬家来博客园,请多多指教 阅读全文
摘要:
1. Logstash概述 Logstash的官网地址为:https://www.elastic.co/cn/products/logstash,以下是官方对Logstash的描述。 Logstash是与Flume类似,也是一种数据采集工具,区别在于组件和特性两大方面。常用的数据采集工具有Sqoop 阅读全文
摘要:
【故障描述】 VM虚拟机安装ElasticSearch集群,有三台Linux,完成安装后,执行启动命令:bin/elasticsearch -d 。 运行结果报错: OpenJDK 64-Bit Server VM warning: If the number of processors is ex 阅读全文
摘要:
1. OOM概述 If your application's execution time becomes longer and longer, or if the operating system seems to be performing slower and slower, this cou 阅读全文
摘要:
1. 上帝视角 【树看JVM】 【图看JVM】 2. 分而治之 2.1 堆区 构成:堆区由新生代和老年代组成,新生代中包含伊甸区(Eden)、幸存者区(survivor from 、survivor to)和老年代。 GC:当创建新的对象时,对象首先会被放入Eden和survivor from中,每 阅读全文
摘要:
1. 什么是Memcached 要了解Memcached首先要到官网上去看官方对它的描述。Memcached的官网网站是:http://memcached.org/,官方对Memcached的描述如下图: 从官方的描述中可以总结出,Memcached是一个高性能分布式的内存对象缓存系统。它将数据以k 阅读全文
摘要:
1. Zookeeper简述 我们要了解一样技术,首先应该要到它的官网,因为官网的信息一般都是最准确的,如下图是Zookeeper官网对它的介绍。 从官网的介绍中,可以总结出,Zookeeper是一个集中式服务,它能够实现高度可靠的分布式协调,可用于开发和维护开源服务器。 除了官网的解释外,我的观点 阅读全文
摘要:
1. 什么是RPC RPC(Remote Procedure Call)远程过程调用。在Hadoop和Spark中都使用了PRC,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。简单来说,就是有A、B两台机器,A机器可以调用B机器上的程序。 2. Spark 的RPC M 阅读全文
摘要:
1. RDD概述 1.1 什么是RDD (1) RDD(Resilient Distributed Dataset)弹性分布式数据集,它是Spark的基本数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 (2) 具有数据流模型的特点:自动容错、位置感知性调度、可伸缩性。 (3) 查询 阅读全文
摘要:
一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Operator 阅读全文
摘要:
一、API 1. 出现新的上下文接口:SparkSession,统一了SQLContext和HiveContext,并且为SparkSession开发了新的流式调用的configuration API 2. 统一了DataFrame和DataSet。DataFrame相当于DataSet[Row], 阅读全文
摘要:
一、概述Spark源码整体的逻辑(spark1.3.1):从saveAsTextFile()方法入手-->saveAsTextFile() --> saveAsHadoopFile() --> 封装hadoopConf,并传入saveAsHadoopDataset()... 阅读全文
摘要:
一、概述 flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and mov 阅读全文
摘要:
一、概述 SaprkContext非常重要,是Spark提交任务到集群的入口 SparkContext中没有main方法,在SparkContext主构造器中,主要做一下四件事情: 1. 调用createSparkEnv()创建SparkEnv,SparkEnv中能够得到ActorSystem对象, 阅读全文
摘要:
在客户端执行脚本sbin/spark-submit的时候,通过cat命令查看源码可以看出,实际上在源码中将会执行bin/spark-class org.apache.spark.deploy.SparkSubmit 。在IDEA导入的Spark-Core的源码进行分析... 阅读全文
摘要:
【故障背景】NameNode和DataNode进程正常运行,但是网页找不到DataNode,DataNode为空。各个节点机器之间可以ping同主机名。【日志排查】众多日志中找到如下关键点错误信息ERROR org.apache.hadoop.hdfs.server.... 阅读全文
摘要:
【故障背景】 DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空。 /etc/hosts 的ip和hostname配置正常,各个机器之间能够ping通。 【日志错误信息】 2018-06-11 17:29:08,165 INFO org.apache.hadoop.hdfs 阅读全文
摘要:
【故障背景】8088网页打不开,因8088是yarn平台的端口,所以我从yarn开始排查,首先到各个机器上使用jps命令查看yarn的各个节点是否启动,发现虽然有nodemanager进程,但是主节点机器上的resourcemanager进程未启动,使用yarn-da... 阅读全文
摘要:
1. mapWith mapWith(i => i*10)((a,b) => b+2)(拿到分区号)(a是每次取到的RDD中的元素,b接收i*10的结果) 2. flatMapWith类似mapWith,区别在于flatMapWith返回的是一个序列3. mapPa... 阅读全文
摘要:
1. List的两种遍历方式 2. Map的三种遍历方式 阅读全文
摘要:
Java集合分为Collection和Map,Collection又分为List、Set。 List中有ArrayList、LinkedList和Vector;Set中又分为HashSet和TreeSet。Map中有HashMap和TreeMap。他们的分类结构关系如... 阅读全文
摘要:
【abstract】抽象的1. abstract可以修饰类和成员方法,被abstract修饰的类称为抽象类,被abstract修饰成员方法叫抽象方法。抽象类不一定有抽象方法,但拥有抽象方法的类一定是抽象类;2. 被abstract修饰的类不能直接实例化,需要通过子类实... 阅读全文
摘要:
1.数据库预备 1.1 SQL 创建数据库 创建表 导入测试数据 在SQLog或Navicat执行以上SQL语句之后,即完成了数据库的基础数据的预备 2. JavaWeb编程 2.1 配置文件 考虑在后续开发中,数据库的路径、用户名、密码等内容是可能会改变的,后续的开发中,应该尽量的避免修改代码,所 阅读全文
摘要:
1.单例设计模式:一个类只能有一个对象1.1 创建单例类的步骤: 1.将构造方法私有化 2.创建私有的静态成员变量 3.共有的静态成员方法,提供当前的唯一对象1.1 创建单例的两种方式: 1.饿汉式 -- 一开始执行时就先给单例类对象赋值/... 阅读全文