摘要: Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S 阅读全文
posted @ 2019-10-30 13:23 小路学习 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Spark算子分为两大类,本文介绍Action类算子。 (1)reduce算子 按照官网的解释,传入的参数是一个函数,一个双参数,返回值唯一的函数,建议,该函数是可交换的,是可联合的,如此,才能实现正确的并行计算。 这里的函数,我平时用过加法操作,最大值操作,最小值操作;记得大数据里提过这个概念,诸 阅读全文
posted @ 2019-10-24 10:31 小路学习 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 一、前言 你是否在为系统的数据库来一波大流量就几乎打满CPU,日常CPU居高不下烦恼?你是否在各种NoSQL间纠结不定,到底该选用哪种最好?今天的你就是昨天的我,这也是写这篇文章的初衷。 这篇文章是我好几个月来一直想写的一篇文章,也是一直想学习的一个内容,作为互联网从业人员,我们要知道关系型数据库( 阅读全文
posted @ 2019-09-07 08:56 小路学习 阅读(452) 评论(0) 推荐(0) 编辑
摘要: /boot 该目录默认下存放的是Linux的启动文件和内核。 /initrd 它的英文含义是boot loader initialized RAM disk,就是由boot loader初始化的内存盘。在linux 内核启动前,boot loader会将存储介质(一般是硬盘)中的initrd文件加载 阅读全文
posted @ 2019-09-06 08:16 小路学习 阅读(361) 评论(0) 推荐(0) 编辑
摘要: Hive的文件存储格式其中TEXTFILE为默认格式,建表时不指定、默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; 备注:除TEXTFILE外,其他文件存储格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从表中用insert 导入Seque 阅读全文
posted @ 2019-09-05 16:38 小路学习 阅读(788) 评论(0) 推荐(0) 编辑
摘要: 一, 基本了解 1.Hive的简介 -1. 由Facebook开源用于解决海量结构化日志的数据统计,后称为Apache Hive为一个开源项目。 -2. Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。一个数据可以建立多个数据库,每一个数据 阅读全文
posted @ 2019-09-05 08:14 小路学习 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 一、校验数字的表达式 1. 数字:^[0-9]*$ 2. n位的数字:^\d{n}$ 3. 至少n位的数字:^\d{n,}$ 4. m-n位的数字:^\d{m,n}$ 5. 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6. 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+( 阅读全文
posted @ 2019-09-02 13:50 小路学习 阅读(123) 评论(0) 推荐(0) 编辑
摘要: MapReduce 跑的慢的原因 Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大 阅读全文
posted @ 2019-08-29 16:32 小路学习 阅读(242) 评论(0) 推荐(0) 编辑
摘要: RM:负责资源的分配。 ApplicationMaster:资源的申请,程序的监控。 NM:负责创建容器,运行Task 阅读全文
posted @ 2019-08-29 14:41 小路学习 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 切片的计算: long splitSize = Math.max(minSize, Math.min(maxSize, blockSize)) 默认:minSize 1 maxSize Long.MAX_VALUE blockSize 128 splitSize默认是128M。 FileInputF 阅读全文
posted @ 2019-08-29 14:40 小路学习 阅读(170) 评论(0) 推荐(0) 编辑