大数据 - 随笔分类 - 采采卷耳&不盈倾筐

hdfs文件导入到hive（带资源）

摘要：前言 hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行，下面来介绍如何将结阅读全文

posted @ 2022-01-17 11:43 采采卷耳&不盈倾筐阅读(2668) 评论(0) 推荐(0)

fluem读取文件并写入到hadoop的hdfs

摘要：接上一章，本章介绍使用 crontab 像指定文件定时写入，使用fluem 读取并写入到hadoop的hdfs 前提准备已安装好fluem ,和hadoop(推荐单机即可毕竟做实验) 一、进入终端执行命令查看 crond 服务状态 service crond status 如下表示服务正常运行，如无阅读全文

posted @ 2022-01-14 18:28 采采卷耳&不盈倾筐阅读(137) 评论(0) 推荐(0)

flume安装及使用

摘要：最近在学习hadoop大数据平台，但是却感觉无从下手，于是看了一些专业的书籍，觉得还是先从下往上为学习也就是从源数据——数据抽取——存储——计算——展示这个路线来学习比较容易一些，所以就先从非结构化数据传输工具flume开始。下面介绍flume 的安装及简单使用 Flume是一个分布式、高可靠、高可阅读全文

posted @ 2022-01-14 17:53 采采卷耳&不盈倾筐阅读(303) 评论(0) 推荐(0)

(原创）大数据数仓基本概念梳理

摘要：一、大数据的基本概念其实到目前为止对于大数据的数据量的多少还是一个可变定义，主观定义，即并不是要大于一个特定数据的TB,才叫大数据，包括在做的项目中，有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性，如行业属性，历史属性，价值属性等等。二、大数据的结构阅读全文

posted @ 2021-12-15 20:22 采采卷耳&不盈倾筐阅读(453) 评论(0) 推荐(0)

随笔分类 - 大数据

公告