随笔 - 7  文章 - 0  评论 - 0  阅读 - 1549
  2020年12月6日
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文 阅读全文
posted @ 2020-12-06 21:48 ccc66 阅读(64) 评论(0) 推荐(0) 编辑
  2020年11月22日
摘要: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBase存储的表并插入数据。 3. 编程完成以 阅读全文
posted @ 2020-11-22 21:41 ccc66 阅读(189) 评论(0) 推荐(0) 编辑
  2020年11月6日
摘要: 一、词频统计 1、编写mapper.py和 编写reduce.py 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 阅读全文
posted @ 2020-11-06 15:25 ccc66 阅读(418) 评论(0) 推荐(0) 编辑
  2020年10月23日
摘要: 阅读全文
posted @ 2020-10-23 14:39 ccc66 阅读(60) 评论(0) 推荐(0) 编辑
  2020年10月16日
摘要: 1.用自己的图,描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop。 阅读全文
posted @ 2020-10-16 14:47 ccc66 阅读(90) 评论(0) 推荐(0) 编辑
  2020年9月19日
摘要: 1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4 阅读全文
posted @ 2020-09-19 13:00 ccc66 阅读(276) 评论(0) 推荐(0) 编辑
  2020年9月11日
摘要: 1.现状:互联网流量聚集,内容创作者和商家依附于头部平台 读懂私域流量,首先要了解流量池的概念,也就是“哪里可以持续不断的获取新用户”。相比于PC互联网,移动时代的流量更加封闭和聚焦,个人和商家都依附于头部平台,平台是触达用户最直接的渠道。用户量和时长是衡量流量池“深浅”的关键指标,BATTK占据移 阅读全文
posted @ 2020-09-11 20:59 ccc66 阅读(452) 评论(0) 推荐(0) 编辑
< 2025年1月 >
29 30 31 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示