06 2020 档案

摘要:SparkSQL数据源-Hive数据库 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Hive应用 1>.内嵌Hive应用 Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以 阅读全文
posted @ 2020-06-30 22:36 JasonYin2020 阅读(836) 评论(0) 推荐(0) 编辑
摘要:SparkSQL数据源实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通用加载/保存方法 1>.spark官方默认提供的测试数据 [root@hadoop101.yinzhengjie.org.cn ~]# ll /yinzhengjie/softwares/spark 阅读全文
posted @ 2020-06-29 23:13 JasonYin2020 阅读(465) 评论(0) 推荐(0) 编辑
摘要:用户自定义函数 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.用户自定义UDF函数 [root@hadoop101.yinzhengjie.org.cn ~]# spark-shell #在"spark-shell"窗口中可以通过spark.udf功能用户可以自定义函数。 2 阅读全文
posted @ 2020-06-28 22:27 JasonYin2020 阅读(462) 评论(0) 推荐(0) 编辑
摘要:IDEA创建SparkSQL程序 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataFrame <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactI 阅读全文
posted @ 2020-06-27 22:36 JasonYin2020 阅读(728) 评论(0) 推荐(0) 编辑
摘要:Spark SQL编程之DataSet篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataSet 温馨提示: Dataset是具有强类型的数据集合,需要提供对应的类型信息。下面是具体案例。 scala> case class Person(name: String, 阅读全文
posted @ 2020-06-27 01:42 JasonYin2020 阅读(520) 评论(0) 推荐(0) 编辑
摘要:Spark SQL编程之DataFrame篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DataFrame的创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式: (1)通过Spark的数据源进行 阅读全文
posted @ 2020-06-25 22:50 JasonYin2020 阅读(524) 评论(0) 推荐(0) 编辑
摘要:Spark SQL编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark SQL编程之DataFrame篇 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13193293.html 二.Spark SQL编 阅读全文
posted @ 2020-06-23 23:00 JasonYin2020 阅读(690) 评论(0) 推荐(0) 编辑
摘要:Spark SQL概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 Hive是将Hive S 阅读全文
posted @ 2020-06-22 22:25 JasonYin2020 阅读(289) 评论(0) 推荐(0) 编辑
摘要:Spark编程进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.spark三大数据结构 Spark有三大数据结构,分别为RDD,广播变量和累加器。 RDD: RDD全称为"Resilient Distributed Dataset",叫做弹性分布式数据集,是Spark中最 阅读全文
posted @ 2020-06-21 21:38 JasonYin2020 阅读(240) 评论(0) 推荐(0) 编辑
摘要:数据的读取与保存 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据读取与保存概述 Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为: Text文件 Json文件 Csv文件 Sequence文件 Object文件 ... 文件系统分 阅读全文
posted @ 2020-06-20 22:14 JasonYin2020 阅读(536) 评论(0) 推荐(0) 编辑
摘要:键值对RDD数据分区器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.键值对RDD数据分区器概述 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuff 阅读全文
posted @ 2020-06-19 23:25 JasonYin2020 阅读(177) 评论(0) 推荐(0) 编辑
摘要:Spark master的HA实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.配置spark的ha模式 1> 阅读全文
posted @ 2020-06-18 23:51 JasonYin2020 阅读(230) 评论(0) 推荐(0) 编辑
摘要:Spark的RDD编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 RDD体现了装饰者设计模式,将数据处理的逻辑进行封装,接下来让我们一起来体验一下吧。 一.RDD概述 1>.什么是RDD RDD全称为"Resilient Distributed Dataset",叫做 阅读全文
posted @ 2020-06-17 23:41 JasonYin2020 阅读(1430) 评论(0) 推荐(0) 编辑
摘要:独立部署spark历史服务 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark的Standalone运行模式部署实战案例 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13122259.html 二.JobHisto 阅读全文
posted @ 2020-06-16 23:24 JasonYin2020 阅读(1336) 评论(0) 推荐(0) 编辑
摘要:将开发的程序打包到正式环境中运行实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.编写spark的wordcount案例 1>.创建一个maven项目并导入依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=" 阅读全文
posted @ 2020-06-15 23:12 JasonYin2020 阅读(607) 评论(0) 推荐(0) 编辑
摘要:Spark的Yarn运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.启动Hadoop集群 1>.修改yarn的配置文件 [root@hadoop101.yinzhengjie.org.cn ~]# vim /yinzhengjie/softwares/ha 阅读全文
posted @ 2020-06-14 23:40 JasonYin2020 阅读(359) 评论(0) 推荐(0) 编辑
摘要:Spark的Standalone运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备工作 1>.角色分配 hadoop101.yinzhengjie.org.cn: worker节点,ansible节点 hadoop102.yinzhengjie.org. 阅读全文
posted @ 2020-06-13 23:20 JasonYin2020 阅读(394) 评论(0) 推荐(0) 编辑
摘要:Spark的Local运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署spark 1>.下载spark二进制安装包 下载Spark地址: http://spark.apache.org/downloads.html 2>.解压spark到指定路径 [r 阅读全文
posted @ 2020-06-12 23:32 JasonYin2020 阅读(698) 评论(0) 推荐(0) 编辑
摘要:Spark概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Spark基于Hadoop1.x架构思想,采用自己的方式改善Hadoop1.x中的问题,接下来我们就一起来学习一下spark技术栈吧。 一.什么是spark 1>.什么是spark Spark是一种基于内存的快速,通用 阅读全文
posted @ 2020-06-11 23:22 JasonYin2020 阅读(360) 评论(0) 推荐(0) 编辑
摘要:使用kibana统计Nginx访问IP的Top N实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据采集 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13081776.html 二.配置视图案例 1>.新建可视 阅读全文
posted @ 2020-06-10 23:28 JasonYin2020 阅读(2322) 评论(0) 推荐(0) 编辑
摘要:基于MaxMind的GeoIP数据库统计Nginx客户端IP所在城市 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 MaxMind是IP智能和在线欺诈预防工具的领先提供商。我们可以通过该公司的GeoIP数据库来统计Nginx访问日志中记录的客户端IP来自哪个国家及城市。 一.安装 阅读全文
posted @ 2020-06-09 23:20 JasonYin2020 阅读(1196) 评论(0) 推荐(0) 编辑
摘要:日志写入数据库实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 写入数据库的目的是用于持久化保存重要数据,比如状态码,客户端IP,客户端浏览器版本等等,用于后期按月做数据统计等。 一.安装MySQL数据库 1>.查看Ubuntu默认支持安装MySQL的版本 [root@es 阅读全文
posted @ 2020-06-08 23:26 JasonYin2020 阅读(935) 评论(0) 推荐(0) 编辑
摘要:Filebeat使用快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署filebeat 博主推荐阅读: https://www.elastic.co/guide/en/beats/filebeat/6.8/filebeat-installation.html [r 阅读全文
posted @ 2020-06-07 22:06 JasonYin2020 阅读(1901) 评论(0) 推荐(0) 编辑
摘要:Kafka的API实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Producer API 1>.消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量—— 阅读全文
posted @ 2020-06-06 23:15 JasonYin2020 阅读(453) 评论(0) 推荐(0) 编辑
摘要:Kafka命令行操作案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.管理topic脚本(kafka-topics.sh) 1>.查看脚本的帮助信息 [root@kafka201.yinzhengjie.com ~]# kafka-topics.sh --help This 阅读全文
posted @ 2020-06-05 23:21 JasonYin2020 阅读(361) 评论(0) 推荐(0) 编辑
摘要:Kafka部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.搭建zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.下载kafka软件包 1>.打开kafka官网 阅读全文
posted @ 2020-06-04 22:24 JasonYin2020 阅读(521) 评论(0) 推荐(0) 编辑
摘要:Kafka架构概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 kafka是一款基于发布与订阅的消息系统。它一般被称为"分布式提交日志"或者"分布式流平台"。 一.消息队列(Message Queue)概述 在正式讨论Apache kafka之前,先来了解消息队列的概念,并认识 阅读全文
posted @ 2020-06-03 22:30 JasonYin2020 阅读(537) 评论(0) 推荐(0) 编辑
摘要:Logstash使用进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通过rsyslog收集haproxy日志到Elaticsearch集群 在CentOS 6.x及之前的版本称为”syslog”,CentOS 7.x之后更名为”rsyslog”,根据官方的介绍,rsys 阅读全文
posted @ 2020-06-02 22:09 JasonYin2020 阅读(1017) 评论(0) 推荐(0) 编辑
摘要:Logstash使用快速入门 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署Logstash 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13022403.html [root@es103.yinzhengjie.c 阅读全文
posted @ 2020-06-01 22:43 JasonYin2020 阅读(1299) 评论(1) 推荐(2) 编辑

点击右上角即可分享
微信分享提示