Spark新闻项目 - 随笔分类 - 百里登峰

大数据Web可视化分析系统开发

摘要：下载地址 https://tomcat.apache.org/download-70.cgi 打开我们的idea 这些的话都可以按照自己的需求来修改在这里新建包新建一个java类再新建一个类我们把tomcat包加载进来把这些包拷贝到工程目录下还需要把这些包引进来写入代码下载地址 ht 阅读全文

posted @ 2018-03-24 03:01 百里登峰阅读(554) 评论(0) 推荐(0)

Structrued Streaming业务数据实时分析

摘要：先启动spark-shell,记得启动nc服务输入以下代码在nc输入几个单词我们再输入一些单词我们改一下代码换成update模式首先重新启动一次spark-shell,记得启动nc 换成append模式因为我们之前的kafka的版本低了，我下载一个0.10.0版本的下载地址 http: 阅读全文

posted @ 2018-03-23 00:29 百里登峰阅读(2094) 评论(1) 推荐(0)

Spark Streaming实时数据分析

摘要：重新启用一个远程连接窗口回到这边输入一些信息看到这边就有数据接收到了我们退出，换个方式启动我们在这边再输入一些数据这边处理得非常快因为打印的日志信息太多了，我修改一下配置文件(3个节点都修改吧，保守一点了) 我们在来跑一下再回到这边我们敲几个字母进去把同样的单词多次输入我们看看是什么阅读全文

posted @ 2018-03-21 16:04 百里登峰阅读(641) 评论(0) 推荐(0)

Spark SQL快速离线数据分析

摘要：拷贝hive-site.xml到spark的conf目录下面打开spark的conf目录下的hive-site.xml文件加上这段配置（我这里三个节点的spark都这样配置）把hive中的mysql连接包放到spark中去检查spark-env.sh的hadoop配置项检查dfs是否启动了阅读全文

posted @ 2018-03-19 21:40 百里登峰阅读(3883) 评论(0) 推荐(0)

Spark2.X分布式弹性数据集

摘要：跑一下这个结果参考代码运行结果改一下这里下面是运行结果打开这个地址我们来产生一个job 从监控页面我们可以看到随便敲一些单词用作测试因为我目前的节点2的hdfs是active状态可以看到报错了，文件目录已经存在了，我们必须要是一个不存在的路径才可以可以看到成功了我们查看一下hd 阅读全文

posted @ 2018-03-18 17:43 百里登峰阅读(644) 评论(0) 推荐(0)

Spark2.X集群运行模式

摘要：rn 启动先把这三个文件的名字改一下配置slaves 配置spark-env.sh 将spark 配置分发到其他节点并修改每个节点特殊配置 scp -r spark-2.2.0-bin bigdata-pro01.kfk.com:/opt/modules/ scp -r spark-2.2.0- 阅读全文

posted @ 2018-03-16 17:26 百里登峰阅读(2930) 评论(0) 推荐(0)

基于IDEA环境下的Spark2.X程序开发

摘要：我们选择在线安装这个是windows下的scala,直接双击安装就可以了安装好之后可以验证一下这个是我本地的jdk1.8安装包，直接双击安装安装完成后可以验证一下 https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/ 解压阅读全文

posted @ 2018-03-14 22:17 百里登峰阅读(1874) 评论(0) 推荐(0)

Spark2.X环境准备、编译部署及运行

摘要：下载地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0.tgz 我们把spark放在节点2上解压下面我们把jdk换成1.8的配置环境变量使环境变量生效重启后另外两个节点的做法一样，这里就不多说了阅读全文

posted @ 2018-03-13 16:10 百里登峰阅读(284) 评论(0) 推荐(0)

Cloudera HUE大数据可视化分析

摘要：下载版本 cdh版本 http://archive-primary.cloudera.com/cdh5/cdh/5/ 我们下载这个这个是我下载好的我们解压一下下载需要的系统包接下来这一步的话可能时间比较久一点起码要三五分钟的，大家耐心等等现在我们编译就成功了！！！我们可以看到生成我们的b 阅读全文

posted @ 2018-03-12 11:32 百里登峰阅读(717) 评论(0) 推荐(0)

Hive与HBase集成进行数据分析

摘要：我们把hive的安装包上传的节点3来解压现在我们还是老规矩通过notopad++来连接我们的虚拟机来配置文件，把下面这两个文件重命名一下修改这个文件对hive-env.sh我们修改这里下面我们在HDFS下创建目录，这个可以在任何一个节点下创建都可以，我这里就在节点2下创建了给这个目录赋予阅读全文

posted @ 2018-03-09 16:59 百里登峰阅读(532) 评论(0) 推荐(0)

hbase启动后子节点的regionserver不能启动

摘要：启动hbase后，主节点的进程正常，但是子节点的regionserver进程会自动挂掉然后我们看看子节点的情况可以看到挂掉了我们这样解决问题，先把hadoop目录下的这个两个文件放到hbase的conf目录下 core-site.xml hdfs-site.xml 我这里说的是每一个节点都要这阅读全文

posted @ 2018-03-05 12:00 百里登峰阅读(603) 评论(0) 推荐(0)

MySQL安装

摘要：http://mirrors.aliyun.com/repo/Centos-6.repo 把文件下载下来打开我们可以看到里面的内容然后在对节点1进行以下操作把下载的文件内容copy到自己刚刚创建的 CentOS-Base.repo文件里面把里面的内容换成刚刚下载的文件的内容先把权限改一下，阅读全文

posted @ 2018-02-07 21:36 百里登峰阅读(189) 评论(0) 推荐(0)

数据采集存储分发完整流程测试

摘要：下面讲下idea怎么创建工程这里可以根据自己的实际需求来命名选中main点击Sorouce 这个是一个简单的java程序工程的创建，现在我们把前面的代码copy过来，我们先把工程目录规范一下把我前面给出的代码复制过来把名字改了下面是给代码打包到这里就打包完成了，接下来把项目自带的打好的架阅读全文

posted @ 2018-02-01 10:55 百里登峰阅读(711) 评论(0) 推荐(0)

Flume+HBase+Kafka集成与开发

摘要：先把flume1.7的源码包下载 http://archive.apache.org/dist/flume/1.7.0/ 下载解压后我们通过IDEA这个软件来打开这个工程点击ok后我们选择打开一个新的窗口不过这个默认方式导入加载时间很长，建议大家用maven方式导入。导入之后我们看这个类看阅读全文

posted @ 2018-01-23 01:59 百里登峰阅读(1630) 评论(0) 推荐(0)

Flume数据采集准备

摘要：， flume的官网：http://flume.apache.org/ flume的下载地址：http://flume.apache.org/download.html 这里我们用的是apache版本的flume 解压改下名字把不必要的文件删除 flume用户指南官网地址：https://cwi 阅读全文

posted @ 2018-01-20 00:39 百里登峰阅读(425) 评论(0) 推荐(0)

Kafka分布式集群部署

摘要：这个是kafka的官网地址：http://kafka.apache.org/ 1、kafka是一个消息系统。 2、kafka对流数据可以高效的实时处理。 3、分布式集群的环境下能够保证数据的安全。 kafka的下载地址：http://kafka.apache.org/downloads 把安装包上传阅读全文

posted @ 2018-01-19 00:11 百里登峰阅读(285) 评论(0) 推荐(0)

HBase分布式集群部署与设计

摘要：先是把cdh版本的hbase上传上来把安装吧的权限设置一下解压把没用的东西干掉 hbase的官网配置文件到hbase-site.xml 下面我不基于HA配置了把hbase分发到其他两个节点上启动进程打开测试页面没问题现在启动hbase 这个时候发现Hmaster挂掉了！！！查看一阅读全文

posted @ 2018-01-18 21:17 百里登峰阅读(333) 评论(0) 推荐(0)

spark新闻项目环境搭建

摘要：前面安装好三节点的centos 6.5 和配置好静态ip,这里就不多说了创建kfk用户，然后重启设置主机名接下来是主机名与ip地址的映射配置完了重启重启后可以看到我们的主机名改变了接下来在windows下的映射找到这个路径下的hosts文件，用记事本编辑在后面加上通过软件实现远程阅读全文

posted @ 2018-01-15 21:03 百里登峰阅读(580) 评论(0) 推荐(1)

百里登风

导航

公告

随笔分类 - Spark新闻项目