该文被密码保护。 阅读全文
posted @ 2019-03-15 11:21 xiaolaotou 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。 在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法: 第一种方式:Receiver模式 又 阅读全文
posted @ 2019-03-14 10:33 xiaolaotou 阅读(8867) 评论(1) 推荐(0) 编辑
摘要: 选择【语言】,点击【继续】等待出现以下界面 一、下载 centos: 二、VMware Workstation相关配置 启动: 显示以下内容: 点击创建新的虚拟机 以上图中依次选择【自定义(高级)】,点击【下一步】按钮,进入以下界面: 点击【下一步】出现以下界面: 1、 选中【安装程序光盘映射文件】 阅读全文
posted @ 2019-03-08 17:53 xiaolaotou 阅读(4870) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-03-08 10:52 xiaolaotou 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 一、过程说明 通过Dockerfile创建mysql镜像,使用的mysql软件包为mariadb二进制分发版,最终在宿主机启动mysql容器从而能在mysql容器外部访问mysql服务。 宿主机IP:172.20.236.106 宿主机操作系统:CentOS7.5(x86_64) 宿主机内核版本:3 阅读全文
posted @ 2019-03-08 10:48 xiaolaotou 阅读(6128) 评论(0) 推荐(0) 编辑
摘要: 一、相关分析 通常当聚合率和数据量没有大于一定程度时,对于不涉及Rollup、Cube、Grouping_Sets这三种操作的聚合很少出现GC问题。对于Rollup、Cube、Grouping_Sets操作可采用如下优化方法避免GC。 1、Rollup / Cube / Grouping_Sets时 阅读全文
posted @ 2019-03-07 17:53 xiaolaotou 阅读(1153) 评论(0) 推荐(0) 编辑
摘要: 一、Yarn架构 Yarn架构设计也是主从架构,分为Resource Manager(RM)和Node Manager(NM),其中RM主要负责应用管理和资源调度,NM主要负责容器和作业。 1、Yarn架构介绍 ResourceManager(RM): 负责对各个Node Manager(NM)上的 阅读全文
posted @ 2019-03-07 17:30 xiaolaotou 阅读(1585) 评论(0) 推荐(0) 编辑
摘要: 一、 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断一个NN是否健康 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断 阅读全文
posted @ 2019-03-07 14:55 xiaolaotou 阅读(4976) 评论(0) 推荐(2) 编辑
摘要: Elasticsearch是基于Json的分布式搜索和分析引擎,是利用倒排索引实现的全文索引。 优势: 横向可扩展性:增加服务器可直接配置在集群中 分片机制提供更好的分布性:分而治之的方式来提升处理效率 高可用:提供复制(replia)机制 实时性:通过将磁盘上的文件放入文件缓存系统来提高查询速度 阅读全文
posted @ 2019-03-07 10:59 xiaolaotou 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 转载:http://www.cnblogs.com/nexiyi/p/hbase_config_94.html 版本:0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很 阅读全文
posted @ 2019-03-07 10:00 xiaolaotou 阅读(592) 评论(0) 推荐(0) 编辑