摘要: 1.下载Flume源码并导入Idea开发工具 1)将apache-flume-1.7.0-src.tar.gz源码下载到本地解压 2)通过idea导入flume源码 打开idea开发工具,选择File——》Open 然后找到flume源码解压文件,选中flume-ng-hbase-sink,点击ok 阅读全文
posted @ 2019-05-30 17:59 misr 阅读(610) 评论(0) 推荐(0) 编辑
摘要: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 1.flume节点服务设计 2.下载Flume并安装 1)下载 阅读全文
posted @ 2019-05-30 17:54 misr 阅读(329) 评论(0) 推荐(0) 编辑
摘要: Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 1)下载Apache版本的Kafka。 2) 阅读全文
posted @ 2019-05-29 11:12 misr 阅读(260) 评论(0) 推荐(0) 编辑
摘要: HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop H 阅读全文
posted @ 2019-05-29 11:11 misr 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有 阅读全文
posted @ 2019-05-26 14:53 misr 阅读(189) 评论(0) 推荐(0) 编辑
摘要: (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 1.基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进。 2.基于HortonWorks厂商的开源免费的hdp版本。 3.基于Cloudera厂商的cdh版本,Clo 阅读全文
posted @ 2019-05-23 13:02 misr 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 1.Linux系统常规设置 1)设置ip地址 项目视频里面直接使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 来修改ip地址,然后重启网络服务service network restar 阅读全文
posted @ 2019-05-23 12:56 misr 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 最近在看《机器学习实战》这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,就在朋友的推荐之下选择了这本书进行学习。 一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类 阅读全文
posted @ 2018-11-26 14:14 misr 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 安装 http://www.rabbitmq.com/install-standalone-mac.html 安装python rabbitMQ module 1 2 3 4 5 6 7 pip install pika or easy_install pika or 源码 https://pypi 阅读全文
posted @ 2018-11-07 20:05 misr 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 在python中启动进程是非常耗资源的,有了进程池就可以限制同一时刻运行的进程数,避免程序崩溃。 Pool可以提供指定数量的进程供用户调用,当有新的请求提交到pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到规定最大值,那么该请求就会等待,直到池中有进程 阅读全文
posted @ 2018-10-30 16:31 misr 阅读(296) 评论(0) 推荐(0) 编辑