2021年1月7日

网站用户行为分析

摘要: (一) Hive数据分析 (1) 用户行为分析需求:2014-12-11~12号有多少条购买商品的记录 select count(*) from bigdata_user where visit_date>=’2014-12-11’ and visit_date<=’2014-12-12’ and 阅读全文

posted @ 2021-01-07 13:56 靓号~亮皓 阅读(462) 评论(0) 推荐(0) 编辑

2020年12月12日

Sqoop安装与使用

摘要: ###使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 #####1、mysql准备接受数据的数据库与表 #查看数据库 show databases; #创建数据库 create database if not exists sqoop1; #使用数据库 use sqoop1; 阅读全文

posted @ 2020-12-12 01:20 靓号~亮皓 阅读(89) 评论(0) 推荐(0) 编辑

2020年12月6日

Hive 操作与应用 词频统计

摘要: ###一、hive用本地文件进行词频统计 #####1.准备本地txt文件 #####2.启动hadoop,启动hive #####3.创建数据库,创建文本表 #查看数据库 show databases; #创建数据库 create database if not exists hive; #查看是 阅读全文

posted @ 2020-12-06 21:52 靓号~亮皓 阅读(134) 评论(0) 推荐(0) 编辑

2020年11月22日

Hbase操作与编程使用

摘要: ###一、列出HBase所有的表的相关信息,例如表名: ###二、在终端打印出指定的表的所有记录数据: ###三、向已经创建好的表添加和删除指定的列族或列: ###四、清空指定的表的所有记录数据: ###五、统计表的行数: ###六、关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HB 阅读全文

posted @ 2020-11-22 19:29 靓号~亮皓 阅读(177) 评论(0) 推荐(0) 编辑

2020年11月7日

Hadoop使用实例

摘要: ##一、词频统计 ####1.下载电子书 wget http://www.gutenberg.org/files/1342/1342-0.txt ####2.编写mapper与reducer函数 mapper.py #!/usr/bin/env python import sys for line 阅读全文

posted @ 2020-11-07 21:08 靓号~亮皓 阅读(310) 评论(0) 推荐(0) 编辑

2020年10月24日

hdfs操作命令

摘要: 一、本地文件系统创建一个文件,输入带姓名学号信息。 新建文件夹HLH和文件HLH 写入信息 HuangLianghao 201806120022 二、查看新建文件所在目录 三、查看新建文件内容 四、将此文件上传到HDFS文件系统上的用户目录,并对其进行操作 阅读全文

posted @ 2020-10-24 02:43 靓号~亮皓 阅读(140) 评论(0) 推荐(0) 编辑

2020年10月20日

Hadoop安装与HDFS体系结构

摘要: 补充:前一次作业补交(错过了提交时间) Linux和MySQL的安装与基本操作:https://www.cnblogs.com/huanglianghao/p/13796050.html 一、HDFS体系结构、工作原理与流程 二、安装hadoop 1.创建hadoop用户 2.更新apt 3.安装S 阅读全文

posted @ 2020-10-20 21:45 靓号~亮皓 阅读(127) 评论(0) 推荐(0) 编辑

2020年10月11日

Linux和MySQL的安装与基本操作

摘要: 一、熟悉Linux系统的使用 (1)Linux系统的常用命令 二、Ubuntu安装Mysql (1)安装MySQL服务 (2)启动服务并检测服务是否启动成功 (3)登录mysql,并建立数据库和对应的表 阅读全文

posted @ 2020-10-11 01:36 靓号~亮皓 阅读(74) 评论(0) 推荐(0) 编辑

2020年9月19日

Hadoop演进与Hadoop生态

摘要: 一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。 Hadoop的架构: 在其核心,Hadoop主要有两个层次,即: 加工/计算层(MapReduce),以及 存储层(Hadoop分布式文件系统)。 阅读全文

posted @ 2020-09-19 18:56 靓号~亮皓 阅读(135) 评论(0) 推荐(0) 编辑

2020年9月12日

作业一

摘要: 一、了解微信、微博、小视频每天产生的数据量与数据类型。 1、微信 中新社北京1月9日电(记者刘育英)9日发布的《2018微信年度数据报告》和8日支付宝推出的2018年个人账单,见证了在过去一年中国人的 数字化生活《2018微信年度数据报告》显示,2018年,每天有10.1亿用户登陆微信;日发送微信消 阅读全文

posted @ 2020-09-12 18:10 靓号~亮皓 阅读(160) 评论(0) 推荐(0) 编辑

导航