大数据 - 文章分类 - 逐梦客！

环境搭建

摘要：Hadoop搭建集群部署规划 Hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager 阅读全文

posted @ 2020-10-10 09:55 逐梦客！阅读(41) 评论(0) 推荐(0) 编辑

Hive入门

摘要：docker环境搭建：https://gitee.com/laughstorm/docker-centos-hadoop 视频教程：https://edu.aliyun.com/course/1531 文档：https://cwiki.apache.org/confluence/display/Hi 阅读全文

posted @ 2020-10-08 15:11 逐梦客！阅读(361) 评论(0) 推荐(0) 编辑

ElasticSearch python入门

摘要：官网手册：https://elasticsearch-py.readthedocs.io/en/master/api.html elasticsearch_dsl手册：https://elasticsearch-dsl.readthedocs.io/en/latest/ 安装 pip3 instal 阅读全文

posted @ 2020-05-29 12:04 逐梦客！阅读(396) 评论(0) 推荐(0) 编辑

Elasticsearch(ES) 入门

摘要：奇客故： https://www.qikegu.com/docs/3053 官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/6.0/docs-delete.html 聚合简介：https://www.jianshu.com/p 阅读全文

posted @ 2020-05-25 15:34 逐梦客！阅读(697) 评论(0) 推荐(0) 编辑

ZooKeeper集群与Leader选举

摘要：作者：TalkingData 来源：掘金链接：https://juejin.im/post/5cb6d5a0e51d456e51614a88 ZooKeeper是一个开源分布式协调服务、分布式数据一致性解决方案。可基于ZooKeeper实现命名服务、集群管理、Master选举、分布式锁等功能。高可阅读全文

posted @ 2020-01-06 13:28 逐梦客！阅读(359) 评论(0) 推荐(0) 编辑

Zab：Zookeeper 中的分布式一致性协议介绍

摘要：作者：两棵橘树来源：简书链接：https://www.jianshu.com/p/fb527a64deee 背景在分布式系统中实现一致性是件有挑战的事。经典的二阶段提交、三阶段提交都不能完美的解决这一问题，有关传统的的分布式系统一致性问题可以看这里。Paxos 算法能完美地达到分布式系统的一致性阅读全文

posted @ 2020-01-05 19:10 逐梦客！阅读(187) 评论(0) 推荐(0) 编辑

Flink入门

摘要：https://blog.csdn.net/wugenqiang/article/details/81738939 环境 Ubuntu18.04 JDK：8 kafka版本：kafka_2.11-2.3.1 官网文档：https://kafka.apache.org/documentation/ F 阅读全文

posted @ 2019-12-05 23:40 逐梦客！阅读(121) 评论(0) 推荐(0) 编辑

How to install and configure Zookeeper in Ubuntu 18.04

摘要：原文作者： Sandip Bhowmik 原文地址：https://linuxconfig.org/how-to-install-and-configure-zookeeper-in-ubuntu-18-04 Zookeeper is a centralized service for maint 阅读全文

posted @ 2019-11-14 09:19 逐梦客！阅读(111) 评论(0) 推荐(0) 编辑

spark streaming + kafka +python

摘要：一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群：kafka_2.11-0.10.0.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,slave2 二、启动阅读全文

posted @ 2019-03-18 17:03 逐梦客！阅读(4133) 评论(0) 推荐(0) 编辑

hadoop-spark错误问题总结

摘要：1.Caused by: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class 具体错误日志: 原因分析及解决方法: spark所依赖的scala版本与系统安装的scala版本不一致通过检查, 系统安装了阅读全文

posted @ 2019-03-18 14:29 逐梦客！阅读(2175) 评论(0) 推荐(0) 编辑

Spark -pycharm调试

摘要：Spark Kafka调试在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行举例：spark-streaming-kafka-0-10_2.11-2.3.0.jar，其中，2.11表示scala的版本，2.3.0表示Spark版本号。这是本地操作kaf 阅读全文

posted @ 2019-03-18 14:05 逐梦客！阅读(340) 评论(0) 推荐(0) 编辑

Spark入门

摘要：Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。有以下特点: 易于使用提供了和批处理一致的高级操作API，可以进行map, reduce, join, window。容错Spark Streaming可以恢复你计算的状态，包括lost wor 阅读全文

posted @ 2019-03-18 12:58 逐梦客！阅读(464) 评论(0) 推荐(0) 编辑

Spark Streaming + Kafka Integration Guide

摘要：版本选择： kafka:2.11 spark:2.1.3 （https://archive.apache.org/dist/spark/spark-2.1.3/）注意：Spark2.3版本中spark-streaming-kafka-0-10不支持python, 所以如果用在pyspark中就会报阅读全文

posted @ 2019-03-18 11:26 逐梦客！阅读(484) 评论(0) 推荐(0) 编辑

Statistics入门

摘要：皮尔逊相关系数要理解 Pearson 相关系数，首先要理解协方差（Covariance）。协方差表示两个变量 X，Y 间相互关系的数字特征，其计算公式为： Pearson 相关系数公式如下：由公式可知，Pearson 相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相阅读全文

posted @ 2019-03-16 09:36 逐梦客！阅读(96) 评论(0) 推荐(0) 编辑

流式实时日志分析系统

摘要：百度统计（tongji.baidu.com）是百度推出的一款免费的专业网站流量分析工具，能够告诉用户访客是如何找到并浏览用户的网站的，以及在网站上浏览了哪些页面。这些信息可以帮助用户改善访客在其网站上的使用体验，不断提升网站的投资回报率。百度统计提供了几十种图形化报告，包括：趋势分析、来源分析、页阅读全文

posted @ 2019-03-14 15:59 逐梦客！阅读(1566) 评论(0) 推荐(0) 编辑

Zookeeper入门

摘要：github 地址：https://github.com/apache/zookeeper Zookeeper官网：http://zookeeper.apache.org/ w3cschool教程：https://www.w3cschool.cn/zookeeper/源码分析：https://www 阅读全文

posted @ 2019-03-12 09:56 逐梦客！阅读(404) 评论(0) 推荐(0) 编辑

kafka2.11入门

摘要：引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同，流计算模型在数据流动的过程中实时地进阅读全文

posted @ 2019-03-11 13:21 逐梦客！阅读(1734) 评论(0) 推荐(1) 编辑

Flume入门

摘要：简介 Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错能力。它使用简单的可扩展数据模型，允许在线分析应用程序。本文讲述如何使用Flume搜集Nginx的日志，并给阅读全文

posted @ 2019-03-11 12:36 逐梦客！阅读(572) 评论(0) 推荐(0) 编辑

Nginx=>Flume=>Kafka=>Flink => Hadoop流程

摘要：简介 Flume：Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错能力。它使用简单的可扩展数据模型，允许在线分析应用程序。 Kafka：是一个分布式的，高吞吐量，阅读全文

posted @ 2019-03-11 11:24 逐梦客！阅读(2658) 评论(0) 推荐(1) 编辑

Hadoop 3.0.3 + Hive3.0安装

摘要：环境初始化预先安装mysql 解压安装包安装Hive 1.解压 tar -zxf apache-hive-3.1.0-bin.tar.gz 2、Set the environment variable HIVE_HOME to point to the installation director 阅读全文

posted @ 2019-03-06 16:58 逐梦客！阅读(803) 评论(0) 推荐(0) 编辑

文章分类 - 大数据

公告

常用链接

随笔分类

随笔档案

文章分类

阅读排行榜

最新评论