随笔分类 -  大数据

摘要:前言 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,下面来介绍如何将结 阅读全文
posted @ 2022-01-17 11:43 采采卷耳&不盈倾筐 阅读(2586) 评论(0) 推荐(0) 编辑
摘要:接上一章,本章介绍使用 crontab 像指定文件定时写入,使用fluem 读取并写入到hadoop的hdfs 前提准备已安装好fluem ,和hadoop(推荐单机即可毕竟做实验) 一、进入终端执行命令查看 crond 服务状态 service crond status 如下表示服务正常运行,如无 阅读全文
posted @ 2022-01-14 18:28 采采卷耳&不盈倾筐 阅读(101) 评论(0) 推荐(0) 编辑
摘要:最近在学习hadoop大数据平台,但是却感觉无从下手,于是看了一些专业的书籍,觉得还是先从下往上为学习也就是从源数据——数据抽取——存储——计算——展示这个路线来学习比较容易一些,所以就先从非结构化数据传输工具flume开始。下面介绍flume 的安装及简单使用 Flume是一个分布式、高可靠、高可 阅读全文
posted @ 2022-01-14 17:53 采采卷耳&不盈倾筐 阅读(266) 评论(0) 推荐(0) 编辑
摘要:一、大数据的基本概念 其实到目前为止对于大数据的数据量的多少还是一个可变定义,主观定义,即并不是要大于一个特定数据的TB,才叫大数据,包括在做的项目中,有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性,如行业属性,历史属性,价值属性等等。 二、大数据的结构 阅读全文
posted @ 2021-12-15 20:22 采采卷耳&不盈倾筐 阅读(374) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示