今天中午恰什么

2021年3月13日 #

3.12

摘要： 1. Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zookeeper对应于Chubby，即分布式锁设施。 HDFS HDFS（Hadoop分布式文件系统）源自于Go 阅读全文

posted @ 2021-03-13 14:48 今天中午恰什么阅读(72) 评论(0) 推荐(0)

2020年12月30日 #

12.30

摘要： 2.1 数据准备 (1)数据集下载与查看 cd /usr/local ls sudo mkdir bigdatacase sudo chown -R hadoop:hadoop ./bigdatacase cd bigdatacase mkdir dataset cd ~/下载 ls unzip u 阅读全文

posted @ 2020-12-30 22:57 今天中午恰什么阅读(107) 评论(0) 推荐(0)

2020年12月12日 #

作业

摘要：测试 1.mysql准备接受数据的数据库与表 2. hive准备待传输的数据 3.sqoop进行数据传输 4.mysql查看传输结果电子书 1.mysql准备接受数据的数据库与表 2.hive准备待传输的数据 3.sqoop进行数据传输 4.mysql查看传输结果阅读全文

posted @ 2020-12-12 17:03 今天中午恰什么阅读(63) 评论(0) 推荐(0)

2020年12月6日 #

作业

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 4.hql语句进行词频统计交将结果保存到结果表中。 5.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本阅读全文

posted @ 2020-12-06 17:43 今天中午恰什么阅读(74) 评论(0) 推荐(0)

2020年11月22日 #

Hbase操作与编程使用作业

摘要： 1.任务：列出HBase所有的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据；向已经创建好的表添加和删除指定的列族或列；清空指定的表的所有记录数据；统计表的行数。 2.关系型数据库中的表和数据（教材P92上)，要求将其转换为适合于HBase存储的表并插入数据。 student表阅读全文

posted @ 2020-11-22 19:33 今天中午恰什么阅读(119) 评论(0) 推荐(0)

2020年11月13日 #

11.12作业

摘要：一、词频统计 1.下载电子书 wget http://www.gutenberg.org/files/1342/1342-0.txt 下载电子书 2.编写mapper与reducer函数 mapper.py #!/usr/bin/env python import sys for line in s 阅读全文

posted @ 2020-11-13 00:02 今天中午恰什么阅读(196) 评论(0) 推荐(0)

2020年10月20日 #

10.16

摘要：阅读全文

posted @ 2020-10-20 08:40 今天中午恰什么阅读(92) 评论(0) 推荐(0)

2020年10月10日 #

10.09作业

摘要：阅读全文

posted @ 2020-10-10 20:48 今天中午恰什么阅读(56) 评论(0) 推荐(0)

2020年9月18日 #

014作业9.18

摘要：一. 1.DKhadoop发行版：有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主阅读全文

posted @ 2020-09-18 11:07 今天中午恰什么阅读(132) 评论(0) 推荐(0)