starrysky~ocean

2021年3月12日

摘要： 1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFS 作为Hadoop生态系统在最底层，用于实现文件存储，提供海量数据存储，是MapReduce, Yarn, Hbase及Spark的基础； M 阅读全文

posted @ 2021-03-12 16:00 starrysky~ocean 阅读(77) 评论(0) 推荐(0) 编辑

2020年12月25日

网站用户行为分析

摘要：操作过程 2.1 数据准备 A.1sudo mkdir usr/local/bigdatacase A.2sudo chown -R hadoop:hadoop ./bigdatacase A.3mkdir usr/local/bigdatacase/dataset A.4 A.5 B.1sed - 阅读全文

posted @ 2020-12-25 19:04 starrysky~ocean 阅读(476) 评论(0) 推荐(0) 编辑

2020年12月12日

Sqoop安装与使用

摘要：使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 1.mysql准备接受数据的数据库与表命令如下：创建使用数据库dblab，创建wxj表：结果： 2. hive准备待传输的数据命令如下：使用hive数据库，进行表wxj的建立：结果： 3.sqoop进行数据传输命令如阅读全文

posted @ 2020-12-12 19:33 starrysky~ocean 阅读(70) 评论(0) 推荐(0) 编辑

2020年12月3日

Hive 操作与应用词频统计

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本阅读全文

posted @ 2020-12-03 16:32 starrysky~ocean 阅读(86) 评论(0) 推荐(0) 编辑

2020年11月21日

Hbase操作与编程使用

摘要： 1.列出HBase所有的表的相关信息，例如表名； 2.在终端打印出指定的表的所有记录数据； 3.向已经创建好的表添加和删除指定的列族或列；添加：删除： 4.统计表的行数： 5.清空指定的表的所有记录数据；指定表： 2.关系型数据库中的表和数据（教材P92上)，要求将其转换为适合于HBase存储阅读全文

posted @ 2020-11-21 20:04 starrysky~ocean 阅读(112) 评论(0) 推荐(0) 编辑

2020年11月11日

Hadoop使用实例

摘要：下载喜欢的电子书或大量文本数据，并保存在本地文本文件中编写map与reduce函数本地测试map与reduce 将文本数据上传至HDFS上用hadoop streaming提交任务查看运行结果计算结果取回到本地气象数据分析如：求每日最高温度批量下载气象数据解压数据集，并保存在本地文阅读全文

posted @ 2020-11-11 00:32 starrysky~ocean 阅读(74) 评论(0) 推荐(0) 编辑

2020年10月23日

HDFS 操作命令

摘要：本地文件系统创建一个文件，输入带姓名学号信息。查看新建文件所在目录查看新建文件内容将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小删除本地1步骤创建的文件将HDFS上的文件下载到本地查看本地文件目录阅读全文

posted @ 2020-10-23 12:06 starrysky~ocean 阅读(106) 评论(0) 推荐(0) 编辑

2020年10月19日

Hadoop安装与 HDFS体系结构（201806120050 吴炫京）

摘要： 1.用自己的图，描述HDFS体系结构、工作原理与流程。阅读全文

posted @ 2020-10-19 18:47 starrysky~ocean 阅读(80) 评论(0) 推荐(0) 编辑

2020年10月9日

Linux和MySQL的安装与基本操作

摘要： 1.熟悉Linux常用命令： 2.在Ubuntu下安装MySQL及其常用操作姓名：吴炫京学号：201806120050 阅读全文

posted @ 2020-10-09 16:54 starrysky~ocean 阅读(131) 评论(0) 推荐(0) 编辑

2020年9月18日

第二次大数据作业:学习Hadoop

摘要： Q1:了解对比Hadoop不同版本的特性，可以用图表的形式呈现。 A: Q2:Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。 A: HBase™：可扩展的分布式数据库，支持大型表的结构化数据存储。 Hive™：一种数据仓库基础结构，可提供数据汇总和即席查询。 Zo 阅读全文

posted @ 2020-09-18 11:37 starrysky~ocean 阅读(183) 评论(0) 推荐(0) 编辑

公告