会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
ccc66
博客园
首页
新随笔
联系
订阅
管理
随笔 - 7 文章 - 0 评论 - 0 阅读 -
1549
2020年12月6日
Hive 操作与应用 词频统计
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文
阅读全文
posted @ 2020-12-06 21:48 ccc66
阅读(64)
评论(0)
推荐(0)
编辑
2020年11月22日
第七次作业
摘要: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBase存储的表并插入数据。 3. 编程完成以
阅读全文
posted @ 2020-11-22 21:41 ccc66
阅读(189)
评论(0)
推荐(0)
编辑
2020年11月6日
第六次作业
摘要: 一、词频统计 1、编写mapper.py和 编写reduce.py 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地
阅读全文
posted @ 2020-11-06 15:25 ccc66
阅读(418)
评论(0)
推荐(0)
编辑
2020年10月23日
第五次作业
摘要:
阅读全文
posted @ 2020-10-23 14:39 ccc66
阅读(60)
评论(0)
推荐(0)
编辑
2020年10月16日
第四次作业
摘要: 1.用自己的图,描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop。
阅读全文
posted @ 2020-10-16 14:47 ccc66
阅读(90)
评论(0)
推荐(0)
编辑
2020年9月19日
Hadoop演进与Hadoop生态
摘要: 1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4
阅读全文
posted @ 2020-09-19 13:00 ccc66
阅读(276)
评论(0)
推荐(0)
编辑
2020年9月11日
大数据概述与学习资源
摘要: 1.现状:互联网流量聚集,内容创作者和商家依附于头部平台 读懂私域流量,首先要了解流量池的概念,也就是“哪里可以持续不断的获取新用户”。相比于PC互联网,移动时代的流量更加封闭和聚焦,个人和商家都依附于头部平台,平台是触达用户最直接的渠道。用户量和时长是衡量流量池“深浅”的关键指标,BATTK占据移
阅读全文
posted @ 2020-09-11 20:59 ccc66
阅读(452)
评论(0)
推荐(0)
编辑
昵称:
ccc66
园龄:
4年4个月
粉丝:
0
关注:
0
+加关注
<
2025年1月
>
日
一
二
三
四
五
六
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔档案
2020年12月(1)
2020年11月(2)
2020年10月(2)
2020年9月(2)
阅读排行榜
1. 大数据概述与学习资源(452)
2. 第六次作业(418)
3. Hadoop演进与Hadoop生态 (276)
4. 第七次作业(189)
5. 第四次作业(90)
点击右上角即可分享