sandywei - 博客园

2019年2月24日

摘要：一、什么是传统的消息传递方法？传统的消息传递方法有两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布订阅：在这个模型中，消息被广播给所有的用户。二、请说明kafka相对传统技术有什么优势？ Kafka与传统的消息传递技术相比优势在于：快速：单一的kaf 阅读全文

posted @ 2019-02-24 21:57 sandywei 阅读(180) 评论(0) 推荐(0)

大数据面试题(一)

摘要：一、.hdfs写文件的步骤答案： (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申阅读全文

posted @ 2019-02-24 21:57 sandywei 阅读(806) 评论(0) 推荐(0)

Spark面试题(二)

摘要：一、spark streaming和storm有何区别？一个实时毫秒，一个准实时亚秒，不过storm的吞吐率比较低。二、spark有哪些组件？ Master：管理集群和节点，不参与计算。 Worker：计算节点，进程本身不参与计算，和master汇报。 Driver：运行程序的main方法，创建阅读全文

posted @ 2019-02-24 21:52 sandywei 阅读(1112) 评论(0) 推荐(0)

Spark面试题(一)

摘要：一、spark集群运算的模式 Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Y 阅读全文

posted @ 2019-02-24 21:51 sandywei 阅读(1646) 评论(0) 推荐(0)

2018年11月7日

Spark获取某个手机号在某个基站下停留的时间和当前手机所在的位置的案例

摘要： 1、业务需求在拥有手机号在每个基站处停留时间日志和基站信息的算出某个手机号的（所在基站，停留时间），(当前所在经度，当前所在纬度) 其中手机连接基站产生的日志信息类似如下： 18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66 阅读全文

posted @ 2018-11-07 10:24 sandywei 阅读(631) 评论(0) 推荐(0)

2018年10月22日

BigDATA面试题

摘要： Big Data 面试题总结 JAVA相关 1 1）List 与set 的区别？老掉牙的问题了，还在这里老生常谈：List特点：元素有放入顺序，元素可重复，Set特点：元素无放入顺序，元素不可重复。 1 2）数据库的三大范式？原子性、一致性、唯一性 1 3）java 的io类的图解 1 4）对阅读全文

posted @ 2018-10-22 17:59 sandywei 阅读(836) 评论(0) 推荐(0)

2018年10月9日

大数据面试题

摘要： Java部分: 1.什么是构造函数,构造代码块,静态代码块?分别的作用是什么?三者的顺序构造函数是类用来创建对象使用的一种函数可以有有参构造函数也可以有无参构造函数构造代码块的作用和构造函数类似可以完成类中的成员变量进行初始化也可以调用成员方法静态代码块属于类的,静态代码块可以随着类的加载而加阅读全文

posted @ 2018-10-09 22:41 sandywei 阅读(561) 评论(0) 推荐(0)

2018年9月8日

最近经历的一些大数据（Spark/Hadoop）面试题

摘要： 1、简答说一下hadoop的map reduce编程模型首先map task会从本地文件系统读取数据，转换成key value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key val 阅读全文

posted @ 2018-09-08 21:24 sandywei 阅读(2420) 评论(0) 推荐(0)

2018年9月7日

使用Phoenix将SQL代码移植至HBase

摘要： 1.前言 HBase是云计算环境下最重要的NOSQL数据库，提供了基于Hadoop的数据存储、索引、查询，其最大的优点就是可以通过硬件的扩展从而几乎无限的扩展其存储和检索能力。但是HBase与传统的基于SQL语言的关系数据库无论从理念还是使用方式上都相去甚远，以至于要将基于SQL的项目移植到HBas 阅读全文

posted @ 2018-09-07 21:03 sandywei 阅读(235) 评论(0) 推荐(0)

hbase分布式集群搭建

摘要： hbase和hadoop一样也分为单机版、伪分布式版和完全分布式集群版本，这篇文件介绍如何搭建完全分布式集群环境搭建。 hbase依赖于hadoop环境，搭建habase之前首先需要搭建好hadoop的完全集群环境，因此看这篇文章之前需要先看我的上一篇文章：hadoop分布式集群搭建。本文中没有按照阅读全文

posted @ 2018-09-07 20:56 sandywei 阅读(158) 评论(0) 推荐(0)

CentOS7搭建 Hadoop + HBase + Zookeeper集群

摘要：摘要: 本文主要介绍搭建Hadoop、HBase、Zookeeper集群环境的搭建一、基础环境准备 1、下载安装包（均使用当前最新的稳定版本，截止至2017年05月24日） 1）jdk 8u131 下载地址：Java SE Development Kit 8 2）hadoop 2.7.3 下载地址阅读全文

posted @ 2018-09-07 20:55 sandywei 阅读(777) 评论(0) 推荐(0)

Hadoop及Zookeeper+HBase完全分布式集群部署

摘要： Hadoop及HBase集群部署一、集群环境 1. 系统版本虚拟机：内存 16G CPU 双核心系统： CentOS 7 64位系统下载地址： http://124.202.164.6/files/417500000AB646E7/mirrors.163.com/centos/7/isos 阅读全文

posted @ 2018-09-07 20:54 sandywei 阅读(1435) 评论(0) 推荐(0)

Hive基本操作

摘要： Hive基本操作 01.Hive是什么 1. Hive介绍 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。 2. Hive架构 p：用 HDFS 进阅读全文

posted @ 2018-09-07 20:53 sandywei 阅读(368) 评论(0) 推荐(0)

Java编程MapReduce实现WordCount

摘要： Java编程MapReduce实现WordCount 1.编写Mapper package net.toocruel.yarn.mapreduce.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop 阅读全文

posted @ 2018-09-07 20:48 sandywei 阅读(549) 评论(0) 推荐(0)

linux安装卸载MySQL以及密码设置+Hive测试

摘要： linux系统卸载MYSQL 1,先通过yum方式卸载mysql及相关组件命令：yum remove mysql 2.通过命令：rpm qa|grep i mysql 查找系统的有关于mysql的文件 3.然后通过命令：sudo rpm e nodeps 包名删除mysql有关软件 4.卸载后/e 阅读全文

posted @ 2018-09-07 20:35 sandywei 阅读(669) 评论(0) 推荐(0)

Suway 尽管程序猿时常遭到游客的调戏，但还是很努力的在追寻着他的香蕉

Python Linux Java 大数据&人工智能 数据分析 HTML5 Tensoflow Spark JS 便捷工具

公告

Suway尽管程序猿时常遭到游客的调戏，但还是很努力的在追寻着他的香蕉

Python Linux Java 大数据&人工智能 数据分析 HTML5 Tensoflow Spark JS 便捷工具

公告

Suway 尽管程序猿时常遭到游客的调戏，但还是很努力的在追寻着他的香蕉

Python Linux Java 大数据&人工智能数据分析 HTML5 Tensoflow Spark JS 便捷工具