摘要:
一: 创建数据库,创建文本表 映射本地文件的数据到文本表中 hql语句进行词频统计交将结果保存到结果表中 查看统计结果 二: 将文本文件上传到HDFS上 创建文本表 映射HDFS中的文件数据到文本表中 hql语句进行词频统计交将结果保存到结果表中 查看统计结果 阅读全文
摘要:
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 国内流传和使用的Hadoop的主要版本主要有以下几种: 1、Apache hadoop 的2.0版本,它的模块主要有以下几个: (1)hadoop通用模块,支持其他hadoop模块的通用工具集; (2)Hadoop分布式文件系统,支持对 阅读全文
摘要:
1.了解微信、微博、小视频每天产生的数据量与数据类型。 目前微博每天可能产生4亿+的数据量,数据类型为string,微信每天可能有450亿的消息发送,数据类型为string,小视频每天有上千万的小视频,数据类型为string 2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。 大数据案例分析 阅读全文