关闭页面特效

随笔分类 - 环境搭建与运维

大数据+人工智能+云计算运维

摘要：1.flume简介 Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.安装和使用说明阅读全文

posted @ 2020-08-13 11:38 大码王阅读(222) 评论(0) 推荐(0) 编辑

大数据集群运维（33）MongoDB各系统上安装

摘要：MongoDB的文档模型自由灵活，可以让你在开发过程中畅顺无比。对于大数据量、高并发、弱事务的互联网应用，MongoDB可以应对自如。MongoDB内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力，完全可以满足Web2.0和移动互联网的数据存储需求，其开箱即用的特性也大大降低了中小型网站的运阅读全文

posted @ 2020-08-13 11:32 大码王阅读(194) 评论(0) 推荐(0) 编辑

大数据集群运维（32）spark开发环境详细教程1：IntelliJ IDEA使用详细说明

摘要：各种开发环境的搭建，其实都是听简单。甚至我们可以通过命令行来开发。而且最原始的编程，其实可以通过文本或则cmd即可。还有maven，sbt等。后来的发展过程中，为了更加方便我们编程，于是发展出来了，更高级的编程工具，Java有eclipse等工具，而Scala有IntelliJ IDEA.当然ecl 阅读全文

posted @ 2020-08-13 11:30 大码王阅读(352) 评论(0) 推荐(0) 编辑

大数据集群运维（31）Spark提交任务时报beyond virtual memory limits错误

摘要：以Spark-Client模式运行，Spark-Submit时出现了下面的错误： User: hadoop Name: Spark Pi Application Type: SPARK Application Tags: YarnApplicationState: FAILED FinalStatu 阅读全文

posted @ 2020-08-11 22:30 大码王阅读(306) 评论(0) 推荐(0) 编辑

大数据集群运维（30）spark安装与使用（入门）

摘要：一：在linux下安装java环境（自行安装jdk）二：安装Scala2.9.3

t a r - z x f s c a l a - 2.9.3. t g z

$tar -zxf scala-2.9.3.tgz$ sudo mv scala-2.9.3 /usr/lib $ sudo vim /etc/profile # add the following lines 阅读全文

posted @ 2020-08-11 18:21 大码王阅读(466) 评论(0) 推荐(0) 编辑

大数据集群运维（29）Zeppelin-在flink和spark集群的安装

摘要：Zeppelin-在flink和spark集群的安装该教程主要面向Zeppelin的入门者。不需要太多的关于 Linux, git, 或其它工具的基础知识。如果你按照这里的方法逐项执行，就可以将 Zeppelin 正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户阅读全文

posted @ 2020-08-11 17:50 大码王阅读(555) 评论(0) 推荐(0) 编辑

大数据集群运维（28） Kylin 配置使用 flink 构建 Cube

摘要：用 Flink 构建 Cube Kylin v3.1 引入了 Flink cube engine，在 build cube 步骤中使用 Apache Flink 代替 MapReduce；您可以查看 KYLIN-3758 了解具体信息。当前的文档使用样例 cube 对如何尝试 new engine 阅读全文

posted @ 2020-08-11 17:39 大码王阅读(776) 评论(0) 推荐(0) 编辑

大数据集群运维（27）Kylin 配置使用 Spark 构建 Cube

摘要：HDP版本：2.6.4.0 Kylin版本：2.5.1 机器：三台 CentOS-7，8G 内存 Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以 Kylin 自带的示例 kylinsalescube 来测试一下 Spark 构建 Cube 的速度。一、配置阅读全文

posted @ 2020-08-11 17:05 大码王阅读(368) 评论(0) 推荐(0) 编辑

大数据集群运维（26）Apache Kylin 2.5.0安装和使用

摘要：1.背景 Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Apache Kylin官网：http://kylin.apache.o 阅读全文

posted @ 2020-08-11 16:58 大码王阅读(504) 评论(0) 推荐(0) 编辑

大数据集群运维（25）CDH安装

摘要：CDH 安装市场上免费大数据框架主要有三个版本，原生的 Apache 版本，Cloudera(https://www.cloudera.com/) 公司研发的（Cloudera Distribution Hadoop，简称“CDH”）CDH 版本，也是市场上使用最多的，Hortonworks 版本阅读全文

posted @ 2020-08-11 16:44 大码王阅读(491) 评论(0) 推荐(0) 编辑

大数据集群运维（24）kylin 系列（一）安装部署

摘要：kylin 系列（一）安装部署一、环境说明 1.1 版本选择 cdh 版本下载地址：http://archive.cloudera.com/cdh5/cdh/5/ 软件名称版本 JDK 1.8 HADOOP Hadoop2.6.0-cdh5.10 ZOOKEERER 3.4.5 HBASE Hba 阅读全文

posted @ 2020-08-11 16:42 大码王阅读(411) 评论(0) 推荐(0) 编辑

大数据集群运维（23）Flink on yarn 常见错误

摘要：1 Retrying connect to server Flink on yarn 依赖 hadoop 集群，在没有启动hadoop之前，直接执行Flink启动命令 ./bin/yarn-session.sh -n 1 -jm 1024 -tm 4096 结果就是flink连不上ResourceM 阅读全文

posted @ 2020-07-06 15:49 大码王阅读(4224) 评论(0) 推荐(0) 编辑

大数据集群运维（22）搭建Spark所遇过的坑

摘要：一.经验 1.Spark Streaming包含三种计算模式：nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标阅读全文

posted @ 2020-07-06 10:53 大码王阅读(473) 评论(0) 推荐(0) 编辑

大数据集群运维（21）centos7 hive 单机模式安装配置

摘要：前言：由于只是在自己的虚拟机上进行学习，所以对hive只是进行最简单的配置，其他复杂的配置文件没有配置。 1、前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安装见：centos7 hadoop 单机模式安装配置 1.3 安装mysql并配置myql允许远程访阅读全文

posted @ 2020-06-15 10:24 大码王阅读(531) 评论(0) 推荐(1) 编辑

大数据集群运维（20）centos7 hadoop 单机模式安装配置

摘要：前言由于现在要用spark,而学习spark会和hdfs和hive打交道，之前在公司服务器配的分布式集群，离开公司之后，自己就不能用了，后来用ambari搭的三台虚拟机的集群太卡了，所以就上网查了一下hadoop+hive的单机部署，以便自己能进行简单的学习，这里记录一下，本来想把hadoop和h 阅读全文

posted @ 2020-06-15 10:12 大码王阅读(722) 评论(0) 推荐(0) 编辑

大数据集群运维（19）通过数据库客户端界面工具DBeaver连接Hive

摘要：前言本文讲解如何通过数据库客户端界面工具DBeaver连接hive，并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具为什么使用客户端界面工具而不用命令行使用hive 通过界面工具查看分析hive里的数据要方便很多业务人员没有权限通过命令行连接hive 领导喜欢在界面工具上查看hive 阅读全文

posted @ 2020-06-15 09:55 大码王阅读(568) 评论(0) 推荐(0) 编辑

大数据集群运维（18）Idea创建Scala的Maven项目

摘要：Idea版本（2018.1.5） Scala版本（2.11.0） Java版本（1.8.0_151）创建Scala的Maven项目 Idea新建项目如图，输入GroupId和ArtifactId之后点击“下一步”->配置Maven home目录（默认即可）->输入工程名“完成”，Idea自动构建项阅读全文

posted @ 2020-06-11 15:26 大码王阅读(314) 评论(0) 推荐(0) 编辑

大数据集群运维（17）CentOS7.5搭建ES6.2.4集群与简单测试

摘要：一简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据。它通常用作支持具有复杂搜索功能和需求的应用程序的底层引擎/技术。下载地址：https://www.elastic.co/cn/downloads 版本：elasticsea 阅读全文

posted @ 2020-06-11 10:34 大码王阅读(718) 评论(0) 推荐(0) 编辑

大数据集群运维（16）CentOS7.5搭建Kafka2.11-1.1.0集群与简单测试

摘要：一、下载下载地址： http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二、集群规划 IP 节点名称 Kafka Zookeeper Jdk Scala 192.168.100.21 no 阅读全文

posted @ 2020-06-11 10:07 大码王阅读(198) 评论(0) 推荐(0) 编辑

大数据集群运维（15）CentOS7.5搭建Hadoop2.7.6完全分布式集群

摘要：一完全分布式集群搭建 Hadoop官方地址：http://hadoop.apache.org/ 1 准备3台客户机 1.2 关闭防火墙，设置静态IP，主机名关闭防火墙，设置静态IP，主机名此处略，参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件我们希望三个主机之间都能够阅读全文

posted @ 2020-06-11 09:55 大码王阅读(336) 评论(0) 推荐(0) 编辑

公告

青青陵上柏，磊磊涧中石*

运行时长：2258天0小时59分16秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

随笔分类 - 环境搭建与运维

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏