ccc66 - 博客园

2020年12月6日

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文阅读全文

posted @ 2020-12-06 21:48 ccc66 阅读(67) 评论(0) 推荐(0)

2020年11月22日

第七次作业

摘要： 1.任务：列出HBase所有的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据；向已经创建好的表添加和删除指定的列族或列；清空指定的表的所有记录数据；统计表的行数。 2.关系型数据库中的表和数据（教材P92上)，要求将其转换为适合于HBase存储的表并插入数据。 3. 编程完成以阅读全文

posted @ 2020-11-22 21:41 ccc66 阅读(230) 评论(0) 推荐(0)

2020年11月6日

第六次作业

摘要：一、词频统计 1、编写mapper.py和编写reduce.py 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地阅读全文

posted @ 2020-11-06 15:25 ccc66 阅读(421) 评论(0) 推荐(0)

2020年10月23日

第五次作业

摘要：阅读全文

posted @ 2020-10-23 14:39 ccc66 阅读(63) 评论(0) 推荐(0)

2020年10月16日

第四次作业

摘要： 1.用自己的图，描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop。阅读全文

posted @ 2020-10-16 14:47 ccc66 阅读(99) 评论(0) 推荐(0)

2020年9月19日

Hadoop演进与Hadoop生态

摘要： 1、了解对比Hadoop不同版本的特性，可以用图表的形式呈现。 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4 阅读全文

posted @ 2020-09-19 13:00 ccc66 阅读(287) 评论(0) 推荐(0)

2020年9月11日

大数据概述与学习资源

摘要： 1.现状：互联网流量聚集，内容创作者和商家依附于头部平台读懂私域流量，首先要了解流量池的概念，也就是“哪里可以持续不断的获取新用户”。相比于PC互联网，移动时代的流量更加封闭和聚焦，个人和商家都依附于头部平台，平台是触达用户最直接的渠道。用户量和时长是衡量流量池“深浅”的关键指标，BATTK占据移阅读全文

posted @ 2020-09-11 20:59 ccc66 阅读(511) 评论(0) 推荐(0)