夏延 - 博客园

2019年1月27日

摘要： agent选择 agent1 exec source + memory channel + avro sink agent2 avro source + memory channel 模拟实际工作中的场景，agent1 为A机器，agent2 为B机器。 avro source: 监听avro端口，阅读全文

posted @ 2019-01-27 12:24 夏延阅读(6699) 评论(0) 推荐(0) 编辑

Kafka 单节点部署

摘要：三种安装Kafka的方式，分别为：单节点单Broker部署、单节点多Broker部署、集群部署（多节点多Broker）。实际生产环境中使用的是第三种方式，以集群的方式来部署Kafka。 Kafka强依赖ZK，如果想要使用Kafka，就必须安装ZK，Kafka中的消费偏置信息、kafka集群、topi 阅读全文

posted @ 2019-01-27 10:38 夏延阅读(6095) 评论(0) 推荐(1) 编辑

2019年1月26日

Spark Streaming——Flume实例

摘要： Flume 官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 此文章共有三个实例： crtl+c后停止flume 实例一直接监控端口配置文件 # Name the components on this agen 阅读全文

posted @ 2019-01-26 10:40 夏延阅读(282) 评论(0) 推荐(0) 编辑

2019年1月25日

Spark实战——日志分析

摘要： 1-1 -用户行为日志概述为什么要记录用户访问行为日志？网站页面的访问量网站的粘性推荐用户行为日志 Nginx ajax 用户行为日志：用户每次访问网站时所有的行为数据（访问、浏览、搜索、点击...) 用户行为轨迹、流量日志日志数据内容 1）访问的系统属性:操作系统，浏览器等等 2）访问阅读全文

posted @ 2019-01-25 15:05 夏延阅读(1889) 评论(0) 推荐(0) 编辑

SparkSQL——DataFrame API基本操作

摘要： package com.spark import org.apache.spark.sql.SparkSession /** * DataFrame API基本操作 */ object DataFrameAPP1 { def main(args: Array[String]): Unit = { val path="E:\\data\\infos.txt" ... 阅读全文

posted @ 2019-01-25 10:04 夏延阅读(253) 评论(0) 推荐(0) 编辑

SparkSQL——Parquet文件操作

摘要：实例代码阅读全文

posted @ 2019-01-25 10:03 夏延阅读(815) 评论(0) 推荐(0) 编辑

SparkSQL——使用外部数据源综合查询Hive mysql数据

摘要：实例代码阅读全文

posted @ 2019-01-25 10:02 夏延阅读(207) 评论(0) 推荐(0) 编辑

2019年1月24日

Spark——DataFrame与RDD互操作方式

摘要：一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁，并且在编写Spark应用程序时已经了解了模式，因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射在开始之前阅读全文

posted @ 2019-01-24 19:08 夏延阅读(344) 评论(0) 推荐(0) 编辑

SparkSQL——SparkSession的使用

摘要：在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用阅读全文

posted @ 2019-01-24 07:20 夏延阅读(1532) 评论(0) 推荐(0) 编辑

SparkSQL——通过JDBC的方式访问

摘要： 1.前提首先是hadoop的两个服务要开启然后是hive 的metastore 然后启动spark-shell，如果没有启动hive的metastore，则会在这一步报错，说找不到hive的9083端口。至于启动spark-shell，则是为了看4040端口上的JDBS/ODBC服务然后启动h 阅读全文

posted @ 2019-01-24 00:01 夏延阅读(685) 评论(0) 推荐(0) 编辑

夏延

公告