随笔档案「2018年5月」 - 黄俊熙

Hadoop综合大作业

摘要：1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。在网上下载英文小说，下载到本地home/hadoop/wc 首先要启动dfs：在user/hadoop/上创建文件夹xiaoshuo：上传下载文档到user/hadoop/xiaoshuo文件中：在h 阅读全文

posted @ 2018-05-24 23:51 黄俊熙阅读(143) 评论(0) 推荐(0)

hive基本操作与应用

摘要：启动hadoop Hdfs上创建文件夹上传文件至hdfs 启动Hive 创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计，结果放在表word_count里查看统计结果阅读全文

posted @ 2018-05-16 22:38 黄俊熙阅读(228) 评论(0) 推荐(0)

理解MapReduce计算构架

摘要：用Python编写WordCount程序任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔先找到Streaming的Jar包配置默认环境变量让配置生效并测试编写run 阅读全文

posted @ 2018-05-11 10:37 黄俊熙阅读(124) 评论(0) 推荐(0)

熟悉HBase基本操作

摘要：1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 22:27 黄俊熙阅读(108) 评论(0) 推荐(0)

05 2018 档案

公告