上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
摘要: agent选择 agent1 exec source + memory channel + avro sink agent2 avro source + memory channel 模拟实际工作中的场景,agent1 为A机器,agent2 为B机器。 avro source: 监听avro端口, 阅读全文
posted @ 2019-01-27 12:24 夏延 阅读(6699) 评论(0) 推荐(0) 编辑
摘要: 三种安装Kafka的方式,分别为:单节点单Broker部署、单节点多Broker部署、集群部署(多节点多Broker)。实际生产环境中使用的是第三种方式,以集群的方式来部署Kafka。 Kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,Kafka中的消费偏置信息、kafka集群、topi 阅读全文
posted @ 2019-01-27 10:38 夏延 阅读(6095) 评论(0) 推荐(1) 编辑
摘要: Flume 官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 此文章共有三个实例: crtl+c后停止flume 实例一直接监控端口 配置文件 # Name the components on this agen 阅读全文
posted @ 2019-01-26 10:40 夏延 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1-1 -用户行为日志概述 为什么要记录用户访问行为日志? 网站页面的访问量 网站的粘性 推荐 用户行为日志 Nginx ajax 用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...) 用户行为轨迹、流量日志 日志数据内容 1)访问的系统属性:操作系统,浏览器等等 2)访问 阅读全文
posted @ 2019-01-25 15:05 夏延 阅读(1889) 评论(0) 推荐(0) 编辑
摘要: package com.spark import org.apache.spark.sql.SparkSession /** * DataFrame API基本操作 */ object DataFrameAPP1 { def main(args: Array[String]): Unit = { val path="E:\\data\\infos.txt" ... 阅读全文
posted @ 2019-01-25 10:04 夏延 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 实例代码 阅读全文
posted @ 2019-01-25 10:03 夏延 阅读(815) 评论(0) 推荐(0) 编辑
摘要: 实例代码 阅读全文
posted @ 2019-01-25 10:02 夏延 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 阅读全文
posted @ 2019-01-24 19:08 夏延 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的context。例如,对于Streming,我们需要使用StreamingContext;对于sql,使用 阅读全文
posted @ 2019-01-24 07:20 夏延 阅读(1532) 评论(0) 推荐(0) 编辑
摘要: 1.前提 首先是hadoop的两个服务要开启 然后是hive 的metastore 然后启动spark-shell,如果没有启动hive的metastore,则会在这一步报错,说找不到hive的9083端口。至于启动spark-shell,则是为了看4040端口上的JDBS/ODBC服务 然后启动h 阅读全文
posted @ 2019-01-24 00:01 夏延 阅读(685) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页