dγèащ

导航

2021年12月10日 #

09 Hive安装与操作

摘要: 一.安装Hive 1、下载解压重命名权限 2、配置环境变量 $HIVE_HOME 3、修改Hive配置文件 gedit 4、配置mysql驱动 在mysql新建hive数据库show databases; 配置mysql允许hive接入 show grants for 'hive'@'localho 阅读全文

posted @ 2021-12-10 17:32 dγèащ 阅读(48) 评论(0) 推荐(0) 编辑

2021年11月23日 #

08 分布式计算MapReduce--词频统计

摘要: 1.用你最熟悉的编程环境,编写非分布式的词频统计程序。 在Ubuntu中实现运行。 准备txt文件 编写py文件 python3运行py文件分析txt文件。 ①txt文件 ②py文件 ③python3运行py文件 2.用MapReduce实现词频统计 2.1编写Map函数 编写mapper.py 授 阅读全文

posted @ 2021-11-23 15:31 dγèащ 阅读(115) 评论(0) 推荐(0) 编辑

2021年11月5日 #

07 HBase操作

摘要: 1.理解HBase表模型及四维坐标:行键、列族、列限定符和时间戳。 HBase 是一个稀疏、多维度、有序的映射表。 这张表中每个单元是通过由行键、列族、列限定符和时间戳组成的索引来标识的。 行键是行的唯一标识,行键并没有什么特定的数据类型,以二进制的字节来存储,按字母顺序排序。 在定义 HBase 阅读全文

posted @ 2021-11-05 18:33 dγèащ 阅读(179) 评论(0) 推荐(0) 编辑

2021年11月2日 #

06 HBase安装与伪分布式配置

摘要: 1.上传压缩文件 2.解压 3.修改文件夹名 4.修改文件夹权限 5.配置环境变量 6.伪分布式配置文件 7.启动HDFS,启动Hbase 8.进入shell界面 9.停止Hbase,停止HDFS运行 阅读全文

posted @ 2021-11-02 15:19 dγèащ 阅读(33) 评论(0) 推荐(0) 编辑

2021年10月29日 #

05 HDFS Java API应用实例

摘要: 一、在Ubuntu系统中安装和配置Eclipse 安装eclipse 启动、配置eclipse 为工程添加需要用到的JAR包 二、利用hadoop 的java api,向HDFS写一个文件。 启动HDFS 查看HDFS用户主目录下的文件(为后续作对比) 编写文件并运行 HDFS上查看,多了文件fil 阅读全文

posted @ 2021-10-29 16:21 dγèащ 阅读(37) 评论(0) 推荐(0) 编辑

2021年10月22日 #

04 Hadoop思想与原理

摘要: 1.用图与自己的话,简要描述Hadoop起源与发展阶段。 (1)Hadoop是什么? ①Hadoop是Apache Lucene创始人Doug Cutting创建的,Lucene是一个广泛使用的文本搜索系统库。 ②Hadoop起源于Apache Nutch,一个开源的网络搜索引擎, 它本身也是Luc 阅读全文

posted @ 2021-10-22 17:16 dγèащ 阅读(82) 评论(0) 推荐(0) 编辑

2021年9月22日 #

(三)熟悉Hadoop及其操作

摘要: (一)熟悉常用的Linux操作 请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local (2)去到目前的上层目录 (3)回到自己的主文件夹 ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 mkdir命令:新建新目录 (5)进入/tmp目录, 阅读全文

posted @ 2021-09-22 20:00 dγèащ 阅读(211) 评论(0) 推荐(0) 编辑

2021年9月19日 #

环境搭建

摘要: 阅读全文

posted @ 2021-09-19 17:24 dγèащ 阅读(23) 评论(0) 推荐(0) 编辑

2021年9月9日 #

大数据技术原理与应用

摘要: 一、为什么会产生大数据技术? 维基百科中指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。对于大数据的定义很多学者从不同的角度进行了阐述,但是表达的意思大致相同,即大数据从根本上说是一种数据集,并且大数据的特性可以通过与以往的数据管理分析技术相比较来显示。在不同 阅读全文

posted @ 2021-09-09 22:36 dγèащ 阅读(1469) 评论(0) 推荐(0) 编辑