摘要: 一、什么是传统的消息传递方法? 传统的消息传递方法有两种: 排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布 订阅:在这个模型中,消息被广播给所有的用户。 二、请说明kafka相对传统技术有什么优势? Kafka与传统的消息传递技术相比优势在于: 快速:单一的kaf 阅读全文
posted @ 2019-02-24 21:57 sandywei 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申 阅读全文
posted @ 2019-02-24 21:57 sandywei 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 一、spark streaming和storm有何区别? 一个实时毫秒,一个准实时亚秒,不过storm的吞吐率比较低。 二、spark有哪些组件? Master:管理集群和节点,不参与计算。 Worker:计算节点,进程本身不参与计算,和master汇报。 Driver:运行程序的main方法,创建 阅读全文
posted @ 2019-02-24 21:52 sandywei 阅读(1092) 评论(0) 推荐(0) 编辑
摘要: 一、spark集群运算的模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Y 阅读全文
posted @ 2019-02-24 21:51 sandywei 阅读(1612) 评论(0) 推荐(0) 编辑
摘要: 1、业务需求 在拥有手机号在每个基站处停留时间日志 和 基站信息的 算出某个手机号的(所在基站,停留时间),(当前所在经度,当前所在纬度) 其中手机连接基站产生的日志信息类似如下: 18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66 阅读全文
posted @ 2018-11-07 10:24 sandywei 阅读(580) 评论(0) 推荐(0) 编辑
摘要: Big Data 面试题总结 JAVA相关 1 1)List 与set 的区别? 老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。 1 2)数据库的三大范式? 原子性、一致性、唯一性 1 3)java 的io类的图解 1 4)对 阅读全文
posted @ 2018-10-22 17:59 sandywei 阅读(816) 评论(0) 推荐(0) 编辑
摘要: Java部分: 1.什么是构造函数,构造代码块,静态代码块?分别的作用是什么?三者的顺序 构造函数是类用来创建对象使用的一种函数可以有有参构造函数也可以有无参构造函数 构造代码块的作用和构造函数类似可以完成类中的成员变量进行初始化也可以调用成员方法 静态代码块属于类的,静态代码块可以随着类的加载而加 阅读全文
posted @ 2018-10-09 22:41 sandywei 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 1、简答说一下hadoop的map reduce编程模型 首先map task会从本地文件系统读取数据,转换成key value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key val 阅读全文
posted @ 2018-09-08 21:24 sandywei 阅读(2394) 评论(0) 推荐(0) 编辑
摘要: 1.前言 HBase是云计算环境下最重要的NOSQL数据库,提供了基于Hadoop的数据存储、索引、查询,其最大的优点就是可以通过硬件的扩展从而几乎无限的扩展其存储和检索能力。但是HBase与传统的基于SQL语言的关系数据库无论从理念还是使用方式上都相去甚远,以至于要将基于SQL的项目移植到HBas 阅读全文
posted @ 2018-09-07 21:03 sandywei 阅读(216) 评论(0) 推荐(0) 编辑
摘要: hbase和hadoop一样也分为单机版、伪分布式版和完全分布式集群版本,这篇文件介绍如何搭建完全分布式集群环境搭建。 hbase依赖于hadoop环境,搭建habase之前首先需要搭建好hadoop的完全集群环境,因此看这篇文章之前需要先看我的上一篇文章:hadoop分布式集群搭建。本文中没有按照 阅读全文
posted @ 2018-09-07 20:56 sandywei 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 摘要: 本文主要介绍搭建Hadoop、HBase、Zookeeper集群环境的搭建 一、基础环境准备 1、下载安装包(均使用当前最新的稳定版本,截止至2017年05月24日) 1)jdk 8u131 下载地址:Java SE Development Kit 8 2)hadoop 2.7.3 下载地址 阅读全文
posted @ 2018-09-07 20:55 sandywei 阅读(754) 评论(0) 推荐(0) 编辑
摘要: Hadoop及HBase集群部署 一、 集群环境 1. 系统版本 虚拟机:内存 16G CPU 双核心 系统: CentOS 7 64位 系统下载地址: http://124.202.164.6/files/417500000AB646E7/mirrors.163.com/centos/7/isos 阅读全文
posted @ 2018-09-07 20:54 sandywei 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: Hive基本操作 01.Hive是什么 1. Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 2. Hive架构 p:用 HDFS 进 阅读全文
posted @ 2018-09-07 20:53 sandywei 阅读(341) 评论(0) 推荐(0) 编辑
摘要: Java编程MapReduce实现WordCount 1.编写Mapper package net.toocruel.yarn.mapreduce.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop 阅读全文
posted @ 2018-09-07 20:48 sandywei 阅读(522) 评论(0) 推荐(0) 编辑
摘要: linux系统卸载MYSQL 1,先通过yum方式卸载mysql及相关组件 命令:yum remove mysql 2.通过命令:rpm qa|grep i mysql 查找系统的有关于mysql的文件 3.然后通过命令:sudo rpm e nodeps 包名删除mysql有关软件 4.卸载后/e 阅读全文
posted @ 2018-09-07 20:35 sandywei 阅读(641) 评论(0) 推荐(0) 编辑