……

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 36 下一页
2020年6月15日
摘要: 前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加SBT或Maven项目中,添加依赖更新项目之后,就可以在Eclipse等IDE里直接运行Spark Streamming+Kafka的程 阅读全文
posted @ 2020-06-15 16:18 大码王 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输出key的数量即可,所以可以利用SparkStreaming+Kafka 实现统计基于缓存的实时wordcount, 阅读全文
posted @ 2020-06-15 14:09 大码王 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的wordcount程序比如官网上的,只能统计最新时间间隔内的每个单词的数量,而不能将历史的累加起来,本文是看了教程之后,自己实现了一下kafka的程序, 阅读全文
posted @ 2020-06-15 14:02 大码王 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json。 下面是我的源端和目标端的一些配置信息: -版本OGG版本ip别名 源端 OracleRelease 11.2.0.1.0 阅读全文
posted @ 2020-06-15 11:02 大码王 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 前言 首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。 1、对应依赖 根据kafka版本选择对应的依赖,我的kafka 阅读全文
posted @ 2020-06-15 10:51 大码王 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1、在服务器(虚拟机)spark-shell连接hive 1.1 将hive-site.xml拷贝到spark/conf里 cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoop2.7/conf/ 1. 阅读全文
posted @ 2020-06-15 10:43 大码王 阅读(2422) 评论(0) 推荐(0) 编辑
摘要: 1、基本概念和用法(摘自spark官方文档中文版) Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便于连接其它数据源。 阅读全文
posted @ 2020-06-15 10:34 大码王 阅读(1312) 评论(0) 推荐(0) 编辑
摘要: 前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置。 1、前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安装见:centos7 hadoop 单机模式安装配置 1.3 安装mysql并配置myql允许远程访 阅读全文
posted @ 2020-06-15 10:24 大码王 阅读(530) 评论(0) 推荐(1) 编辑
摘要: 前言 由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一下hadoop+hive的单机部署,以便自己能进行简单的学习,这里记录一下,本来想把hadoop和h 阅读全文
posted @ 2020-06-15 10:12 大码王 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端界面工具而不用命令行使用hive 通过界面工具查看分析hive里的数据要方便很多 业务人员没有权限通过命令行连接hive 领导喜欢在界面工具上查看hive 阅读全文
posted @ 2020-06-15 09:55 大码王 阅读(566) 评论(0) 推荐(0) 编辑
2020年6月12日
摘要: 代码实现: import turtle import time import os def draw_square(org_x, org_y, x, y): turtle.setpos(org_x, org_y) # to left and bottom connor turtle.color('r 阅读全文
posted @ 2020-06-12 18:14 大码王 阅读(1728) 评论(0) 推荐(0) 编辑
摘要: import turtle def drawSnake(rad,angle,len,nackrad): for i in range(len): turtle.circle(rad,angle) #画圆,参数分别是半径和角度 turtle.circle(-rad,angle) #半径为负,反方向画圆 阅读全文
posted @ 2020-06-12 18:09 大码王 阅读(1165) 评论(0) 推荐(0) 编辑
摘要: 画正多边形主要是计算多边形每个角度对应的外角的度数,计算出来这个度数即可画图,相对来说非常简单 以正六边形为例 import turtle import time t = turtle.Pen() for i in range(6): t.forward(100) t.left(60) time.s 阅读全文
posted @ 2020-06-12 18:02 大码王 阅读(3525) 评论(0) 推荐(0) 编辑
2020年6月11日
摘要: Idea版本(2018.1.5) Scala版本(2.11.0) Java版本(1.8.0_151) 创建Scala的Maven项目 Idea新建项目如图,输入GroupId和ArtifactId之后点击“下一步”->配置Maven home目录(默认即可)->输入工程名“完成”,Idea自动构建项 阅读全文
posted @ 2020-06-11 15:26 大码王 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 一 简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速,近实时地存储,搜索和分析大量数据。它通常用作支持具有复杂搜索功能和需求的应用程序的底层引擎/技术。 下载地址:https://www.elastic.co/cn/downloads 版本:elasticsea 阅读全文
posted @ 2020-06-11 10:34 大码王 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 一、下载 下载地址: http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二、集群规划 IP 节点名称 Kafka Zookeeper Jdk Scala 192.168.100.21 no 阅读全文
posted @ 2020-06-11 10:07 大码王 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 一 完全分布式集群搭建 Hadoop官方地址:http://hadoop.apache.org/ 1 准备3台客户机 1.2 关闭防火墙,设置静态IP,主机名 关闭防火墙,设置静态IP,主机名此处略,参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件 我们希望三个主机之间都能够 阅读全文
posted @ 2020-06-11 09:55 大码王 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 一 下载安装包 1 官方下载 官方下载地址:http://spark.apache.org/downloads.html 2 安装前提 Java8 安装成功 zookeeper 安装参考:CentOS7.5搭建Zookeeper3.4.12集群 hadoop 安装参考:CentOS7.5搭建Hado 阅读全文
posted @ 2020-06-11 09:53 大码王 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 一 Hive的下载 软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是:apache-hive-2.3.3-bin.tar.gz 官方安装配置文档:https://cwiki.apache.org/confluence/ 阅读全文
posted @ 2020-06-11 09:51 大码王 阅读(303) 评论(0) 推荐(0) 编辑
2020年6月10日
摘要: 系统环境:Windows7 x64 安装JDK和JRE版本:1.8.0_191 1、下载JDK安装包 Oracle官网下载网址:https://www.oracle.com/technetwork/java/javase/downloads/index.html 选择需要下载的JDK版本,本人下载的 阅读全文
posted @ 2020-06-10 21:28 大码王 阅读(348) 评论(0) 推荐(0) 编辑
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 36 下一页
复制代码