摘要: 【安装前的环境准备】 Hadoop:2.6.1Java:jdk-1.7.0Spark: spark-1.6.0-bin-hadoop2.6.tgzScala: scala-2.11.4.tgz虚拟机:host01,host02,host03; 其中host01是spark集群的主节点master, 阅读全文
posted @ 2017-12-20 23:52 shayzhang 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 监控Spark Application的运行 官方文档: http://spark.apache.org/docs/latest/monitoring.html 1.1 监控方式 Driver Programme WEB UI (Port: 4040) * 每一个driver program (更具 阅读全文
posted @ 2017-12-20 00:52 shayzhang 阅读(1522) 评论(0) 推荐(0) 编辑
摘要: 1.1、Spark Ecosystem BlinkDB: 允许用户定义一个错误范围,BlinkDB将在用户给定的错误范围内,尽可能快的提供查询结果 1.2、Spark愿景 1.3、Spark简介 1)加州大学伯克利分校AMP实验室(Algorithms, Machines, and People l 阅读全文
posted @ 2017-12-19 02:31 shayzhang 阅读(255) 评论(0) 推荐(0) 编辑
摘要: """ Test connection to MySQL using mysql-client conn = MySQLdb.connect(host,port,user,passwd,db,charset) cursor = conn.cursor() cursor.execute(sql, (arg1,arg2,arg3...)) conn.commit() conn.rollback(... 阅读全文
posted @ 2017-12-15 00:50 shayzhang 阅读(247) 评论(0) 推荐(0) 编辑
摘要: Python客户端: Kafka-python 安装: pip install kafka-python Consumer端模拟代码 启动该Consumer,并多次运行Producer, 由于消息的key相同,会被存入同一个partition, 从Consumer端解析出的partition也可以确 阅读全文
posted @ 2017-12-09 21:50 shayzhang 阅读(558) 评论(0) 推荐(0) 编辑
摘要: 使用的python库: kafka-python 安装方式: pip install kafka-python 简单的模拟Producer 在集群上任选1个节点,开启console-consumer, 运行该py文件 Consumer收到该数据 阅读全文
posted @ 2017-12-09 18:20 shayzhang 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 1、集群配置思路 1)每台节点上要启动一个broker进程,因此要配置每台的server.properties broker id, log.dirs, zookeeper.connect 2) 每台broker都要连接zookeeper将状态写入,因此要配置每台的zookeeper.propert 阅读全文
posted @ 2017-12-09 13:36 shayzhang 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 1、实践场景 开始前的准备条件: 1) 确认各个节点的jdk版本,将jdk升级到和kafka配套的版本(解压既完成安装,修改/etc/profile下的JAVA_HOME,source /etc/profile,重启后jdk生效) 2、单节点kafka实践 1) 启动zookeeper集群 各个节点 阅读全文
posted @ 2017-12-09 00:06 shayzhang 阅读(1389) 评论(0) 推荐(0) 编辑
摘要: 1、Kafka背景 * LinkedIn开发,2011年成为Apache的一个开源项目* 2012年,成为Apache的一个顶级项目* 基于java和Scala编写, 基于发布-订阅模型的消息系统(离线-在线消费都支持)* 分布式、高性能(o(1)的磁盘数据结构完成消息持久化,OS:预读后写;磁盘顺 阅读全文
posted @ 2017-12-07 01:25 shayzhang 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 实践一:replicating selector 1、目标场景 selector将event复制,分发给所有下游节点 2、Flume Agent配置 Agent配置 Collector1配置 Collector2配置 3、验证Replicating selector Agent端通过curl -X 阅读全文
posted @ 2017-12-03 18:37 shayzhang 阅读(1874) 评论(0) 推荐(0) 编辑
摘要: 实践一:regex filter interceptor 1、目标场景 regex filter interceptor的作用: 1)将event body的内容和配置中指定的正则表达式进行匹配2)如果内容匹配,则将该event丢弃3)如果内容不匹配,则将该event放行 2、Flume Agent 阅读全文
posted @ 2017-12-03 16:50 shayzhang 阅读(1780) 评论(0) 推荐(0) 编辑
摘要: 1、目标场景 2、flume agent配置文件 3、验证timestamp+host interceptor 验证思路: 1)先将interceptor作用后的event,通过logger sink打印到console,验证header是否正常添加2)修改sink为hdfs, 观察目录和文件的名称 阅读全文
posted @ 2017-12-03 12:37 shayzhang 阅读(1239) 评论(0) 推荐(0) 编辑
摘要: 1、目标场景 2、Flume Agent配置 3、curl命令,模拟发送HTTP请求(POST方法) # curl -X POST -d '[{"headers":{}, "body":"timestamp teset 001"}]' http://master:6666 说明: -X POST 表 阅读全文
posted @ 2017-12-03 03:32 shayzhang 阅读(1357) 评论(0) 推荐(0) 编辑
摘要: 1、负载均衡场景 1)初始:上游Agent通过round_robin selector, 将event轮流发送给下游Collecotor1, Collector2 2)故障: 关闭Collector1进程来模拟故障,Agent1由于配置了backoff, 会将Collecotor1暂时从发送列表中移 阅读全文
posted @ 2017-12-02 18:03 shayzhang 阅读(1240) 评论(0) 推荐(0) 编辑
摘要: 1、实践场景 模拟上游Flume Agent在发送event时的故障切换 (failover) 1)初始:上游Agent向active的下游节点Collector1传递event 2)Collector1故障: kill该进程的方式来模拟, event此时发送给Collector2,完成故障切换 3 阅读全文
posted @ 2017-12-02 01:48 shayzhang 阅读(820) 评论(0) 推荐(0) 编辑
摘要: Flume1.6.0的安装1、上传Flume-1.6.0-tar.gz到待部署的所有机器 以我的为例: /usr/local/src/ 2、解压得到flume文件夹 # tar -xzvf flume-1.6.0-tar.gz 3、修改文件夹名称,属主,及权限 # mv flume-1.6.0 fl 阅读全文
posted @ 2017-12-01 02:10 shayzhang 阅读(826) 评论(0) 推荐(0) 编辑
摘要: Flume消息收集系统,在整个系统架构中的位置 Flume概况1) Apache软件基金会的顶级项目2)存在两个大的版本:Flume 0.9.x(Flume-OG,original generation), Flume 1.x(Flume-NG,next generation)3) 信息采集系统(分 阅读全文
posted @ 2017-11-30 02:28 shayzhang 阅读(1650) 评论(0) 推荐(0) 编辑
摘要: 正则表达式,是一个特殊的字符串, 是对一类字符串的描述 ( 怎么描述一类字符: 普通字符+元字符+重复)检测给定的字符串,是否和正则表达式描述的字符串相匹配 举例:1) 检查一串数字是否是电话号码2) 检测一个字符串是否符合email的标准3) 把一个文本中的指定单词替换为另一个单词 Python提 阅读全文
posted @ 2017-11-17 01:06 shayzhang 阅读(184) 评论(0) 推荐(0) 编辑
摘要: HBase集群部署 HBase是分布式数据库,本身也需要借助zookeeper进行集群节点间的协调(Master, RegionServer), 可以使用HBase自带的zookeeper,也可以使用外部独立部署的zookeeper, 从练习的角度讲,可以使用HBase内部自带的zookeeper 阅读全文
posted @ 2017-11-13 00:21 shayzhang 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1. HBase在Hadoop生态圈中的位置 问题:HBase 是什么,用在哪里,解决什么样的问题? 解答: 1)简单来说, HBase 是一种类似于面向列的分布式数据库(集群), 底层利用HDFS 来作为其物理存储(但在特殊情况下也可以使用节点本机的文件系统), 存储稀疏数据;同时借助zookee 阅读全文
posted @ 2017-11-11 02:25 shayzhang 阅读(298) 评论(0) 推荐(0) 编辑
摘要: Spark的开发环境,可以基于IDEA+Scala插件,最终将打包得到的jar文件放入Linux服务器上的Spark上运行 如果是Python的小伙伴,可以在Windows上部署spark+hadoop+pycharm开发环境进行本地开发和调测,最后将py文件放入Linux服务器上的Spark运行 阅读全文
posted @ 2017-12-22 11:45 shayzhang 阅读(213) 评论(0) 推荐(0) 编辑