2020年12月6日
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文
posted @ 2020-12-06 21:18 Qzpppp 阅读(58) 评论(0) 推荐(0) 编辑
  2020年11月22日
摘要: 1.任务: 列出HBase所有的表的相关信息,例如表名; 3. 编程完成以下指定功能(教材P92下): (1)createTable(String tableName, String[] fields)创建表。 (2)addRecord(String tableName, String row, S 阅读全文
posted @ 2020-11-22 21:43 Qzpppp 阅读(200) 评论(0) 推荐(0) 编辑
  2020年11月6日
摘要: 1.词频统计 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 编写map与reduce函数 本地测试map与reduce 将文本数据上传至HDFS上 用hadoop streaming提交任务 查看运行结果 计算结果取回到本地 加分 2.气象数据分析 批量下载气象数据 解压数据集,并保存在本 阅读全文
posted @ 2020-11-06 21:48 Qzpppp 阅读(65) 评论(1) 推荐(0) 编辑
  2020年10月24日
摘要: 本地文件系统创建一个文件,输入带姓名学号信息。 查看新建文件所在目录 查看新建文件内容 将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小 删除本地1步骤创建的文件 将HDFS上的文件下载到本地 查看本地文件目录 阅读全文
posted @ 2020-10-24 20:58 Qzpppp 阅读(114) 评论(0) 推荐(0) 编辑
  2020年10月17日
摘要: 1.HDFS体系结构 2.HDFS工作原理 3.HDFS流程 二.伪分布式安装Hadoop。 阅读全文
posted @ 2020-10-17 21:28 Qzpppp 阅读(72) 评论(0) 推荐(0) 编辑
  2020年10月10日
摘要: 1. 熟悉 Linux系统的使用 2. 在Ubuntu下安装MySQL及其常用操作 阅读全文
posted @ 2020-10-10 16:33 Qzpppp 阅读(74) 评论(0) 推荐(0) 编辑
  2020年9月19日
摘要: 1. DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点 阅读全文
posted @ 2020-09-19 20:17 Qzpppp 阅读(131) 评论(0) 推荐(0) 编辑
  2020年9月12日
摘要: 1. 微信每天产生的数据量:每天有450亿次信息发送出,有4.1亿次音视频呼叫成功,微信用户超过9亿,每天产生的数据量都是数亿tb。主要的数据类型为:打字聊天、语音聊天、视频聊天和浏览朋友圈产生的数据。 微博每天产生的数据量:微博每日产生过亿条微博,每天产生的数据量是数千万tb。主要的数据类型为:发 阅读全文
posted @ 2020-09-12 11:29 Qzpppp 阅读(222) 评论(0) 推荐(0) 编辑