08 2018 档案
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/81747361 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始spark+kafka: 转自:https://blog.csdn.net/qq_26803795/articl
阅读全文
摘要:转自: https://blog.csdn.net/qq_26803795/article/details/79543926 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始zookeeper: 1)zookeeper的本质是什么?它解决了哪些问题? ZooKeeper 本质上是一个
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79474604 本篇博客列举几个笔试或面试常见的小案例,其实它们的解决方案很多都是类似的,主要考察的也是大数据技术处理数据的思想,下面让我们一起分析总结: 1)海量日志数据,提取出某日访问百度
阅读全文
摘要:转自: https://blog.csdn.net/qq_26803795/article/details/79466592 本篇博客继续HIVE,将所有HIVE优化相关的内容深入清楚: hive 优化: 1)Map的优化 • 增加map的个数: set mapred.map.tasks=10; •
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79162203 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE: 1)hive 支持 not in 吗? 2)Hive 有哪些方式保存元数据,各有哪些优缺点? 3)h
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79161599 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续Hbase的尾巴,并开始HIVE: 1)怎样将mysql的数据导入到hbase中? 2)hbase的快速查找建立
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79152808 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续Hbase: 1)hive 跟 hbase 的区别是? 2)HBase 接收数据,如果短时间导入数量过多的话就会
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79142512 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,下面我们开始Hbase: 1)介绍一下 hbase 过滤器。 HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79131678 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HDFS: 1)hdfs原理,以及各个模块的职责 Client:切分文件;访问或通过命令行管理HDFS;与Nam
阅读全文
摘要:转自:https://blog.csdn.net/qq_26803795/article/details/79109240 为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们从HDFS开始: 1)如何杀死一个job hadoop job –list ./hadoop job -kill j
阅读全文
摘要:spark工作机制,哪些角色,作用。 spark yarn模式下的cluster模式和client模式有什么区别。
阅读全文
摘要:交换类排序、1、冒泡排序算法冒泡排序在众多排序算法中算比较简单的一个,基本思想是重复的进行整个数列的排序,一次比较两个元素(两两排序),如果它们顺序不符合就交换,重复这样直到数列没有再需要交换的数为止(结束条件)。就好像气泡一样,轻的气泡会往上漂浮,在不断漂...
阅读全文
摘要:1、HDFS副本机制Hadoopde 默认副本布局策略是: (1)在运行客户端的节点上放置第一个副本(如果客户端运行在集群之外,就随机选择一个节点,不过系统会避免选择那些存储太满或者太忙的节点); (2)第二个副本放置在与第一不同且随机另外选择的机架节点上;...
阅读全文
摘要:选择类排序算法1、选择排序算法思想:首先找到数组中最小的那个元素,其次将它和数组中的第一个元素交换(如果第一个元素是最小的,那么和它自己进行交换)。再次,再剩下的元素中找到最小的元素,将它与数组中的第二个元素进行位置交换。如此往复,直到整个数组排序。这就叫选...
阅读全文
摘要:作业提交流程(MR执行过程)Mapreduce2.x Client:用来提交作业ResourceManager:协调集群上的计算资源的分配NodeManager:负责启动和监控集群上的计算容器(container)ApplicationMaster:协调运行...
阅读全文
摘要:1、计算机网络基础OSI参考模型(开放系统互连参考模型):物理层:物理层处于OSI的最底层,是整个开放系统的基础。物理层涉及通信信道上传输的原始比特流(bits),它的功能主要是为数据端设备提供传送数据的通路以及传输数据数据链路层:数据链路层的主要任务是实现...
阅读全文
摘要:Java中的对象拷贝(Object Copy)指的是将一个对象的所有属性(成员变量)拷贝到另一个有着相同类类型的对象中去。举例说明:比如,对象A和对象B都属于类S,具有属性a和b。那么对对象A进行拷贝操作赋值给对象B就是:B.a=A.a; B.b=A.b;...
阅读全文
摘要:转自:https://blog.csdn.net/yerenyuan_pku/article/details/71909325 什么是逆向工程MyBatis的一个主要的特点就是需要程序员自...
阅读全文
摘要:Mybatis解决jdbc编程的问题 1、 数据库连接创建、释放频繁造成系统资源浪费从而影响系统性能,如果使用数据库连接池可解决此问题。 解决:在SqlMapConfig.xml中配置数据连接池,使用连接池管理数据库链接。 2、 Sql语句写在代码中造成...
阅读全文
摘要:MyBatis入门(一)介绍 MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Githu...
阅读全文
摘要:链接: https://blog.csdn.net/qq_41701956/article/details/80250226https://blog.csdn.net/wanght89/article/details/79019450
阅读全文
摘要:SpringMVC 入门SpringMVC是什么? Spring web mvc和Struts2都属于表现层的框架,它是Spring框架的一部分,我们可以从Spring的整体结构中看得出来,如下图: 入门程序1.在IDEA中创建一个项目,添加一个模块spri...
阅读全文
摘要:Spring 的JDBC模板(一)Spring 其实提供了很多的持久化技术的模板类简化编程。 包括: – JDBC – Hibernate3.0 – IBatis(MyBatis) – ...
阅读全文
摘要:Spring AOP入门为什么要使用AOPpublic class Dog { public void run() { System.out.println("驯兽师发出命令!") System...
阅读全文
摘要:(一)什么是Spring Spring框架是个轻量级的Java EE框架。所谓轻量级,是指不依赖于容器就能运行的一个开源框架。 EE开发分为三层结构:WEB层(Spring MVC) 业务层(Bean管理IOC) 持久层(Spring 的JDBC模板 、ORM模板用于整合其他的持久层框架) (二)开
阅读全文
摘要:转自:https://blog.csdn.net/yuan_xw/article/details/512109541 Kafka入门教程1.1 消息队列(Message Queue)Message Queue消息传送系统提供传送服务。消息传送依赖于大量支持组...
阅读全文
摘要:转自:https://blog.csdn.net/yuan_xw/article/details/79188061 Kafka集群环境安装 Kafka集群环境安装 Kafka集群环境安装 相关下载 JDK要求1.8版本以上。 JDK安装教程:http://blog.csdn.net/yuan_xw/
阅读全文
摘要:1、介绍 Apache Flume是为有效收集聚合和移动大量来自不同源到中心数据存储而设计的可分布,可靠的,可用的系统。flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接受
阅读全文
摘要:1、相关介绍 Datasets:一个 Dataset 是一个分布式的数据集合 Dataset 是在 Spark 1.6 中被添加的新接口, 它提供了 RDD 的优点(强类型化, 能够使用强大的 lambda 函数)与Spark SQL执行引擎的优点。 DataFrame: 一个 DataFrame
阅读全文
摘要:介绍 1、是spark core的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可
阅读全文
摘要:共享变量 (1)累加器:是用来对信息进行聚合的,同时也是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器 此代码用于实现累
阅读全文
摘要:背景:一个java中的类只有实现了Serializable接口,它的对象才是可序列化的。如果要序列化某些类的对象,这些类就必须实现Serializable接口。Serializable是一个空接口,没有什么具体内容,它的目的只是简单的标识一个类的对象可以被序...
阅读全文
摘要:1、文件格式Spark对很多种文件格式的读取和保存方式都很简单。 (1)文本文件 读取: 将一个文本文件读取为一个RDD时,输入的每一行都将成为RDD的一个元素。val input=sc.textFile("...")也可以将多个完整的文本文件读取为一个pa...
阅读全文
摘要:1、pair RDD的简介 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD就被称为pair RDD 那么如何创建pair RDD呢? 在不同的语言中有着不同的创建方式 在python和Scala语言中创建的方式都是差不多的。 在java语言中: java用户还需要调用专门的Spa
阅读全文
摘要:1、RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在分区的不同节点上。 用户可以通过两种方式创建RDD: (1)读取外部数据集 》 sc.textFile(inputfile) (2)驱动器程序中对一个集合进行并行化 》sc.parallel
阅读全文
摘要:1、Spark中的Python和Scala的Shell (1): Python的Spark Shell 也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入 bin/pyspark (2): Scala中的Shell bin/spark-shell 利用spark进行行数的统
阅读全文
摘要:数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况 解决办法 1.增加jvm内存,这适用于第一种情况(唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)),这种情况下,往往只能通过硬件的手段来...
阅读全文
摘要:Spark数据倾斜 产生原因 首先RDD的逻辑其实时表示一个对象集合。在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据集的子集。当spark调度并运行任务的时候,Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多,但是有少部分的任务处理的数据量很大,因而Sp
阅读全文