2020年6月15日

SparkStreaming入门到实战之(13)--spark-submit提交Spark Streamming+Kafka程序

摘要：前言 Spark Streaming本身是没有Kafka相关的jar包和API的，如果想利用Spark Streaming获取Kafka里的数据，需要自己将依赖添加SBT或Maven项目中，添加依赖更新项目之后，就可以在Eclipse等IDE里直接运行Spark Streamming+Kafka的程阅读全文

posted @ 2020-06-15 16:18 大码王阅读(435) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(12)--SparkStreaming+Kafka 实现统计基于缓存的实时uv

摘要：前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看起来要对用户去重，其实只要按照WordCount的思路，最后输出key的数量即可，所以可以利用SparkStreaming+Kafka 实现统计基于缓存的实时wordcount，阅读全文

posted @ 2020-06-15 14:09 大码王阅读(589) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(11)--SparkStreaming+Kafka 实现基于缓存的实时wordcount

摘要：前言本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序，什么意思呢，因为一般的SparkStreaming的wordcount程序比如官网上的，只能统计最新时间间隔内的每个单词的数量，而不能将历史的累加起来，本文是看了教程之后，自己实现了一下kafka的程序，阅读全文

posted @ 2020-06-15 14:02 大码王阅读(322) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(10)--基于OGG的Oracle与Hadoop集群准实时同步介绍

摘要：前言 ogg即Oracle GoldenGate是Oracle的同步工具，本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中，其中同步消息格式为json。下面是我的源端和目标端的一些配置信息： -版本OGG版本ip别名源端 OracleRelease 11.2.0.1.0 阅读全文

posted @ 2020-06-15 11:02 大码王阅读(488) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(9)--Spark Streaming连接Kafka入门教程

摘要：前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程，只是简单的介绍如何利用spark 连接kafka，并消费数据，由于博主也是才学，所以其中代码以实现为主，可能并不是最好的实现方式。 1、对应依赖根据kafka版本选择对应的依赖，我的kafka 阅读全文

posted @ 2020-06-15 10:51 大码王阅读(254) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（7）spark连接hive（spark-shell和eclipse两种方式）

摘要： 1、在服务器（虚拟机）spark-shell连接hive 1.1 将hive-site.xml拷贝到spark/conf里 cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoop2.7/conf/ 1. 阅读全文

posted @ 2020-06-15 10:43 大码王阅读(2422) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（6）Spark Sql 连接mysql

摘要： 1、基本概念和用法（摘自spark官方文档中文版） Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时，应该首选 JdbcRDD。这是因为结果是以数据框（DataFrame）返回的，且这样 Spark SQL操作轻松或便于连接其它数据源。阅读全文

posted @ 2020-06-15 10:34 大码王阅读(1312) 评论(0) 推荐(0) 编辑

大数据集群运维（21）centos7 hive 单机模式安装配置

摘要：前言：由于只是在自己的虚拟机上进行学习，所以对hive只是进行最简单的配置，其他复杂的配置文件没有配置。 1、前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安装见：centos7 hadoop 单机模式安装配置 1.3 安装mysql并配置myql允许远程访阅读全文

posted @ 2020-06-15 10:24 大码王阅读(530) 评论(0) 推荐(1) 编辑

大数据集群运维（20）centos7 hadoop 单机模式安装配置

摘要：前言由于现在要用spark,而学习spark会和hdfs和hive打交道，之前在公司服务器配的分布式集群，离开公司之后，自己就不能用了，后来用ambari搭的三台虚拟机的集群太卡了，所以就上网查了一下hadoop+hive的单机部署，以便自己能进行简单的学习，这里记录一下，本来想把hadoop和h 阅读全文

posted @ 2020-06-15 10:12 大码王阅读(722) 评论(0) 推荐(0) 编辑

大数据集群运维（19）通过数据库客户端界面工具DBeaver连接Hive

摘要：前言本文讲解如何通过数据库客户端界面工具DBeaver连接hive，并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具为什么使用客户端界面工具而不用命令行使用hive 通过界面工具查看分析hive里的数据要方便很多业务人员没有权限通过命令行连接hive 领导喜欢在界面工具上查看hive 阅读全文

posted @ 2020-06-15 09:55 大码王阅读(566) 评论(0) 推荐(0) 编辑

2020年6月12日

Python绘图之（4）turtle 画国旗

摘要：代码实现： import turtle import time import os def draw_square(org_x, org_y, x, y): turtle.setpos(org_x, org_y) # to left and bottom connor turtle.color('r 阅读全文

posted @ 2020-06-12 18:14 大码王阅读(1728) 评论(0) 推荐(0) 编辑

Python绘图之（3）用turtle画蛇

摘要： import turtle def drawSnake(rad,angle,len,nackrad): for i in range(len): turtle.circle(rad,angle) #画圆，参数分别是半径和角度 turtle.circle(-rad,angle) #半径为负，反方向画圆阅读全文

posted @ 2020-06-12 18:09 大码王阅读(1165) 评论(0) 推荐(0) 编辑

Python绘图之（2）turtle模块画正多边形

摘要：画正多边形主要是计算多边形每个角度对应的外角的度数，计算出来这个度数即可画图，相对来说非常简单以正六边形为例 import turtle import time t = turtle.Pen() for i in range(6): t.forward(100) t.left(60) time.s 阅读全文

posted @ 2020-06-12 18:02 大码王阅读(3525) 评论(0) 推荐(0) 编辑

2020年6月11日

大数据集群运维（18）Idea创建Scala的Maven项目

摘要： Idea版本（2018.1.5） Scala版本（2.11.0） Java版本（1.8.0_151）创建Scala的Maven项目 Idea新建项目如图，输入GroupId和ArtifactId之后点击“下一步”->配置Maven home目录（默认即可）->输入工程名“完成”，Idea自动构建项阅读全文

posted @ 2020-06-11 15:26 大码王阅读(314) 评论(0) 推荐(0) 编辑

大数据集群运维（17）CentOS7.5搭建ES6.2.4集群与简单测试

摘要：一简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据。它通常用作支持具有复杂搜索功能和需求的应用程序的底层引擎/技术。下载地址：https://www.elastic.co/cn/downloads 版本：elasticsea 阅读全文

posted @ 2020-06-11 10:34 大码王阅读(718) 评论(0) 推荐(0) 编辑

大数据集群运维（16）CentOS7.5搭建Kafka2.11-1.1.0集群与简单测试

摘要：一、下载下载地址： http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二、集群规划 IP 节点名称 Kafka Zookeeper Jdk Scala 192.168.100.21 no 阅读全文

posted @ 2020-06-11 10:07 大码王阅读(197) 评论(0) 推荐(0) 编辑

大数据集群运维（15）CentOS7.5搭建Hadoop2.7.6完全分布式集群

摘要：一完全分布式集群搭建 Hadoop官方地址：http://hadoop.apache.org/ 1 准备3台客户机 1.2 关闭防火墙，设置静态IP，主机名关闭防火墙，设置静态IP，主机名此处略，参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件我们希望三个主机之间都能够阅读全文

posted @ 2020-06-11 09:55 大码王阅读(334) 评论(0) 推荐(0) 编辑

大数据集群运维（14）CentOS7.5搭建spark2.3.1集群

摘要：一下载安装包 1 官方下载官方下载地址：http://spark.apache.org/downloads.html 2 安装前提 Java8 安装成功 zookeeper 安装参考：CentOS7.5搭建Zookeeper3.4.12集群 hadoop 安装参考：CentOS7.5搭建Hado 阅读全文

posted @ 2020-06-11 09:53 大码王阅读(319) 评论(0) 推荐(0) 编辑

大数据集群运维（13）CentOS7.5搭建Hive2.3.3

摘要：一 Hive的下载软件下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是：apache-hive-2.3.3-bin.tar.gz 官方安装配置文档：https://cwiki.apache.org/confluence/ 阅读全文

posted @ 2020-06-11 09:51 大码王阅读(303) 评论(0) 推荐(0) 编辑

2020年6月10日

大数据集群运维（12）JDK安装和环境变量配置（Win7版）

摘要：系统环境：Windows7 x64 安装JDK和JRE版本：1.8.0_191 1、下载JDK安装包 Oracle官网下载网址：https://www.oracle.com/technetwork/java/javase/downloads/index.html 选择需要下载的JDK版本，本人下载的阅读全文

posted @ 2020-06-10 21:28 大码王阅读(348) 评论(0) 推荐(0) 编辑

公告