2018 年 5月随笔档案 - 235郑杰升

Hadoop大作业

摘要：恢复内容开始 1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。先启动Hadoop。 jps查看各个服务已启动，进入hive 把本地文件上传到hdfs文件系统（这里本来是打算把预先准备的英文小说上传上去，但是不知道为什么一直提示找不到文件，然后发现帮助文档阅读全文

posted @ 2018-05-17 23:45 235郑杰升阅读(164) 评论(0) 推荐(0)

hive基本操作与应用

摘要：启动hadoop Hdfs上创建文件夹上传文件至hdfs 准备文件song.txt: 上传到hdfs/data文件中启动Hive 创建原始文档表导入文件内容到表docs并查看导入：查看：用HQL进行词频统计，结果放在表word_count里查看统计结果阅读全文

posted @ 2018-05-17 19:55 235郑杰升阅读(116) 评论(0) 推荐(0)

用Python编写WordCount程序任务

摘要：1. 用Python编写WordCount程序并提交任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔 2.编写map函数，reduce函数 3.将其权限作出相应修改 4.本阅读全文

posted @ 2018-05-11 19:45 235郑杰升阅读(779) 评论(0) 推荐(0)

熟悉HBase基本操作

摘要：1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-09 14:06 235郑杰升阅读(113) 评论(0) 推荐(0)

jiesheng

05 2018 档案

公告