文章分类 -  大数据

摘要:Hadoop搭建 集群部署规划 Hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager 阅读全文
posted @ 2020-10-10 09:55 逐梦客! 阅读(41) 评论(0) 推荐(0) 编辑
摘要:docker环境搭建:https://gitee.com/laughstorm/docker-centos-hadoop 视频教程:https://edu.aliyun.com/course/1531 文档:https://cwiki.apache.org/confluence/display/Hi 阅读全文
posted @ 2020-10-08 15:11 逐梦客! 阅读(361) 评论(0) 推荐(0) 编辑
摘要:官网手册:https://elasticsearch-py.readthedocs.io/en/master/api.html elasticsearch_dsl手册:https://elasticsearch-dsl.readthedocs.io/en/latest/ 安装 pip3 instal 阅读全文
posted @ 2020-05-29 12:04 逐梦客! 阅读(396) 评论(0) 推荐(0) 编辑
摘要:奇客故: https://www.qikegu.com/docs/3053 官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/6.0/docs-delete.html 聚合简介:https://www.jianshu.com/p 阅读全文
posted @ 2020-05-25 15:34 逐梦客! 阅读(697) 评论(0) 推荐(0) 编辑
摘要:作者:TalkingData 来源:掘金链接:https://juejin.im/post/5cb6d5a0e51d456e51614a88 ZooKeeper是一个开源分布式协调服务、分布式数据一致性解决方案。可基于ZooKeeper实现命名服务、集群管理、Master选举、分布式锁等功能。 高可 阅读全文
posted @ 2020-01-06 13:28 逐梦客! 阅读(359) 评论(0) 推荐(0) 编辑
摘要:作者:两棵橘树 来源:简书链接:https://www.jianshu.com/p/fb527a64deee 背景 在分布式系统中实现一致性是件有挑战的事。经典的二阶段提交、三阶段提交都不能完美的解决这一问题,有关传统的的分布式系统一致性问题可以看这里。Paxos 算法能完美地达到分布式系统的一致性 阅读全文
posted @ 2020-01-05 19:10 逐梦客! 阅读(187) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/wugenqiang/article/details/81738939 环境 Ubuntu18.04 JDK:8 kafka版本:kafka_2.11-2.3.1 官网文档:https://kafka.apache.org/documentation/ F 阅读全文
posted @ 2019-12-05 23:40 逐梦客! 阅读(121) 评论(0) 推荐(0) 编辑
摘要:原文作者 : Sandip Bhowmik 原文地址:https://linuxconfig.org/how-to-install-and-configure-zookeeper-in-ubuntu-18-04 Zookeeper is a centralized service for maint 阅读全文
posted @ 2019-11-14 09:19 逐梦客! 阅读(111) 评论(0) 推荐(0) 编辑
摘要:一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群:kafka_2.11-0.10.0.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述 三台机器:master,slave1,slave2 二、启动 阅读全文
posted @ 2019-03-18 17:03 逐梦客! 阅读(4133) 评论(0) 推荐(0) 编辑
摘要:1.Caused by: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class 具体错误日志: 原因分析及解决方法: spark所依赖的scala版本与系统安装的scala版本不一致 通过检查, 系统安装了 阅读全文
posted @ 2019-03-18 14:29 逐梦客! 阅读(2175) 评论(0) 推荐(0) 编辑
摘要:Spark Kafka调试 在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行 举例:spark-streaming-kafka-0-10_2.11-2.3.0.jar,其中,2.11表示scala的版本,2.3.0表示Spark版本号。 这是本地操作kaf 阅读全文
posted @ 2019-03-18 14:05 逐梦客! 阅读(340) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 有以下特点: 易于使用提供了和批处理一致的高级操作API,可以进行map, reduce, join, window。 容错Spark Streaming可以恢复你计算的状态, 包括lost wor 阅读全文
posted @ 2019-03-18 12:58 逐梦客! 阅读(464) 评论(0) 推荐(0) 编辑
摘要:版本选择: kafka:2.11 spark:2.1.3 (https://archive.apache.org/dist/spark/spark-2.1.3/) 注意:Spark2.3版本中spark-streaming-kafka-0-10不支持python, 所以如果用在pyspark中就会报 阅读全文
posted @ 2019-03-18 11:26 逐梦客! 阅读(484) 评论(0) 推荐(0) 编辑
摘要:皮尔逊相关系数 要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为: Pearson 相关系数公式如下: 由公式可知,Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相 阅读全文
posted @ 2019-03-16 09:36 逐梦客! 阅读(96) 评论(0) 推荐(0) 编辑
摘要:百度统计(tongji.baidu.com)是百度推出的一款免费的专业网站流量分析工具,能够告诉用户访客是如何找到并浏览用户的网站的,以及在网站上浏览了哪些页面。这些信息可以帮助用户改善访客在其网站上的使用体验,不断提升网站的投资回报率。 百度统计提供了几十种图形化报告,包括:趋势分析、来源分析、页 阅读全文
posted @ 2019-03-14 15:59 逐梦客! 阅读(1566) 评论(0) 推荐(0) 编辑
摘要:github 地址:https://github.com/apache/zookeeper Zookeeper官网:http://zookeeper.apache.org/ w3cschool教程:https://www.w3cschool.cn/zookeeper/源码分析:https://www 阅读全文
posted @ 2019-03-12 09:56 逐梦客! 阅读(404) 评论(0) 推荐(0) 编辑
摘要:引言 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模型在数据流动的过程中实时地进 阅读全文
posted @ 2019-03-11 13:21 逐梦客! 阅读(1734) 评论(0) 推荐(1) 编辑
摘要:简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。 它使用简单的可扩展数据模型,允许在线分析应用程序。本文讲述如何使用Flume搜集Nginx的日志,并给 阅读全文
posted @ 2019-03-11 12:36 逐梦客! 阅读(572) 评论(0) 推荐(0) 编辑
摘要:简介 Flume:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。 它使用简单的可扩展数据模型,允许在线分析应用程序。 Kafka:是一个分布式的,高吞吐量, 阅读全文
posted @ 2019-03-11 11:24 逐梦客! 阅读(2658) 评论(0) 推荐(1) 编辑
摘要:环境初始化 预先安装mysql 解压安装包 安装Hive 1.解压 tar -zxf apache-hive-3.1.0-bin.tar.gz 2、Set the environment variable HIVE_HOME to point to the installation director 阅读全文
posted @ 2019-03-06 16:58 逐梦客! 阅读(803) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示