随笔分类 -  大数据

摘要:简介 ZooKeeper是一个分布式应用程序协调服务,主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储,主要用途是维护和监控所存数据的状态变化,以实现对集群的管理。 ZooKeeper应用场景: 统一命名 配置管理 集群管理 共享锁 队列管理 基本架构 # 阅读全文
posted @ 2021-05-09 09:38 buildings 阅读(634) 评论(0) 推荐(0) 编辑
摘要:Hadoop的core-site.xml中fs.defaultFS配置由于多种原因(集群迁移、集群升级、NameNode主机名更改等)更改,会导致Hive无法通过元数据找到的数据存储地址,因此需要对元数据数据库中的地址更新。 报错场景: 解决方案: 1. 直接去数据库中修改。我们知道,Hive的元数 阅读全文
posted @ 2020-08-20 11:47 buildings 阅读(7487) 评论(0) 推荐(0) 编辑
摘要:引言:当从HDFS删除文件时,将释放与该文件相关联的块。而配置HDFS的回收站功能后,其会将删除的文件和目录存储在特定回收站目录中一定的时间后释放块,然后再将其永久删除,即可防止意外数据删除。如果配置了回收站功能且回收间隔大于0,那么删除的文件或者目录会在用户主目录下的.Trash目录保存。 一、进 阅读全文
posted @ 2020-06-19 01:54 buildings 阅读(2300) 评论(0) 推荐(0) 编辑
摘要:本文是基于已经搭建好且正常运行的Spark以及Hadoop集群上进行,为了支持Spark on Yarn是需要额外的配置。 1、Spark on Yarn配置 在搭建好的Spark上修改spark-env.sh文件: # vim $SPARK_HOME/conf/spark-env.sh 添加以下配 阅读全文
posted @ 2020-05-29 03:39 buildings 阅读(9231) 评论(2) 推荐(1) 编辑
摘要:一、前提安装 1.1 Java1.8环境搭建 1) 下载jdk1.8并解压: # tar -zxvf jdk-8u201-linux-i586.tar.gz -C /usr/local 2) 添加Java环境变量,在/etc/profile中添加: export JAVA_HOME=/usr/loc 阅读全文
posted @ 2020-05-03 03:53 buildings 阅读(1176) 评论(0) 推荐(1) 编辑
摘要:一、概念综述 MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型可以比较简单,但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是,MapReduce的 阅读全文
posted @ 2019-08-15 20:16 buildings 阅读(2299) 评论(0) 推荐(2) 编辑
摘要:自己的主机上的Hadoop版本是2.7.6,是测试用的伪分布式Hadoop,在前段时间部署了Hive on Spark,但由于没有做好功课,导致了Hive无法正常启动,原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2,现打算将自己的从 阅读全文
posted @ 2019-08-09 22:32 buildings 阅读(7852) 评论(1) 推荐(1) 编辑
摘要:本编随笔是小编参照个人的笔记、官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳,说起来真的惭愧呀,自学了很长一段时间也没有对Hadoop知识点进行归纳,有时候在实战中或者与别人交流Hadoop相关技术时,很多概念也只是模模糊糊记得,并非很熟练。哈哈哈,趁着本科中最后一个暑假,把 阅读全文
posted @ 2019-07-27 02:19 buildings 阅读(15193) 评论(4) 推荐(4) 编辑
摘要:本文是基于已经安装好的ubuntu环境上搭建伪分布式hadoop,在virtualbox安装ubuntu可以参考小编的 ”virtualbox安装ubuntu16.04 LTS及其配置“ 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mo 阅读全文
posted @ 2019-05-15 00:57 buildings 阅读(3113) 评论(4) 推荐(1) 编辑
摘要:项目内容: 本项目选择 淘宝商品类目:零食 数量:一共100页,4400个零食商品 筛选条件:天猫、销量从高到低、价格0元到200元以内 项目目的: 对商品标题进行文本分析以及词云可视化 商品价格分布情况分析 商品的销量分布情况分析 商品价格对销量的影响分析 商品价格对销售额的影响分析 不同省份或城 阅读全文
posted @ 2019-05-08 00:00 buildings 阅读(20419) 评论(9) 推荐(14) 编辑

点击右上角即可分享
微信分享提示