2020年3月20日

Hive实现网站PV分析

摘要: 原文链接: https://www.toutiao.com/i6773241257528394248/ 之前我们做过《java mapreduce实现网站PV分析》,这次我们可以用hive分析一些需求指标 提出需求:统计分析24小时各个时段的pv和uv 分析: (1) pv统计总的浏览量 count 阅读全文

posted @ 2020-03-20 23:43 那山的狐狸 阅读(370) 评论(0) 推荐(0) 编辑

win10中查看开关机时间及查看admin的RID的方法

摘要: 原文链接: https://www.toutiao.com/i6772133439593251339/ 打开系统的注册表 键盘输入win+r组合键出现运行窗口命令 输入regedit 按回车键,进入注册表编辑器 依次展开"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\W 阅读全文

posted @ 2020-03-20 23:39 那山的狐狸 阅读(914) 评论(0) 推荐(0) 编辑

sqoop的使用之import导入到HDFS

摘要: 原文链接: https://www.toutiao.com/i6772128429614563843/ 首先我们已经安装好sqoop了,如果没有安装好参考文档《快速搭建CDH-Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境》 准备一些基本的认识 1、sqoop分为 阅读全文

posted @ 2020-03-20 23:32 那山的狐狸 阅读(910) 评论(0) 推荐(0) 编辑

快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境

摘要: 原文链接: https://www.toutiao.com/i6771763211927552523/ CDH简单了解 CDH: C:cloudera(公司) D:distribute H:Hadoop 解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题,不用自己编译, CDH适合商用 阅读全文

posted @ 2020-03-20 23:26 那山的狐狸 阅读(260) 评论(0) 推荐(0) 编辑

Hive的连接和运行模式

摘要: 原文链接: https://www.toutiao.com/i6771018203687551495/ Hive的连接 启动hadoop的时候将history也启动,如果出问题,可以方便我们后续定位 首先将Hive变成对外开放 启动hiveserver2 我们查看下 如果杀掉需要用kill -9 P 阅读全文

posted @ 2020-03-20 23:22 那山的狐狸 阅读(375) 评论(0) 推荐(0) 编辑

Hive与MapReduce相关排序及自定义UDF函数

摘要: 原文链接: https://www.toutiao.com/i6770870821809291788/ Hive和mapreduce相关的排序和运行的参数 1.设置每个reduce处理的数据量(单位是字节) 我们在hive中查看下 配置文件hive-site.xml.template 我们打开配置文 阅读全文

posted @ 2020-03-20 23:09 那山的狐狸 阅读(515) 评论(0) 推荐(0) 编辑

Hive的导入导出和常用过滤语句的学习

摘要: 原文: https://www.toutiao.com/i6769166601871688196/?group_id=6769166601871688196 数据的导入 load data [local] 创建数据表 加载数据 load data local inpath '/data/hivete 阅读全文

posted @ 2020-03-20 00:29 那山的狐狸 阅读(349) 评论(0) 推荐(0) 编辑

Hive的分析函数的使用

摘要: 原文: https://www.toutiao.com/i6769120000578945544/?group_id=6769120000578945544 我们先准备数据库、表和数据 开窗分析函数相对于mysql中的聚合函数区别是:分析函数是基于某个组多个数据进行计算聚合,而聚合函数是每个组返回一 阅读全文

posted @ 2020-03-20 00:28 那山的狐狸 阅读(227) 评论(0) 推荐(0) 编辑

Hive分区表和桶表的使用

摘要: 原文链接: https://www.toutiao.com/i6766897068138037763/?group_id=6766897068138037763 我们看官网文档中这个地方 我们先创建好数据库,以供练习 使用数据库 我们创建数据表 我们创建分区表,选取的字段不能是表中存在的字段 元数据 阅读全文

posted @ 2020-03-20 00:26 那山的狐狸 阅读(268) 评论(0) 推荐(0) 编辑

Hive建表和内外部表的使用

摘要: 原文链接: https://www.toutiao.com/i6766784274965201415 一、普通建表方式 create table stu_info( id int, name string )ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 阅读全文

posted @ 2020-03-20 00:24 那山的狐狸 阅读(649) 评论(0) 推荐(0) 编辑

Hive的基本概念和常用命令

摘要: 原文链接: https://www.toutiao.com/i6766571623727235595/?group_id=6766571623727235595 一、概念: 1、结构化和非结构化数据 结构化数据:固有的键值对 非结构数据:没有固定的键值对,没有明确的映射关系 所以就可以理解下面这句话 阅读全文

posted @ 2020-03-20 00:23 那山的狐狸 阅读(480) 评论(0) 推荐(0) 编辑

java mapreduce二次排序

摘要: 原文链接: https://www.toutiao.com/i6765808056191156748/ 目的: 二次排序就是有下面的数据 a 3 a 1 a 100 c 1 b 2 如果只按照abc排序就会变成 a 3 a 1 a 100 b 2 c 1 我们希望是第二列也参与排序 a 1 a 3 阅读全文

posted @ 2020-03-20 00:09 那山的狐狸 阅读(282) 评论(0) 推荐(0) 编辑

java mapreduce实现网站PV分析

摘要: 原文链接: https://www.toutiao.com/i6765677128022229517/ PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。 我们目前的数据是: 其中的数据我们会得到标注 根据标注我 阅读全文

posted @ 2020-03-20 00:07 那山的狐狸 阅读(241) 评论(0) 推荐(0) 编辑

mapreduce实现数据去重

摘要: 原文链接: https://www.toutiao.com/i6764933201203823107/ 概念:"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 数据去重的最终目标是让原始数据 阅读全文

posted @ 2020-03-20 00:06 那山的狐狸 阅读(695) 评论(0) 推荐(0) 编辑

Hadoop的Shuffle阶段

摘要: 原文: https://www.toutiao.com/i6764683672772674062/ 在进入Map之前,首先会将数据从HDFS中读取,进行处理,按照字节偏移量这种之前说的形式处理为K,V对的形式,进入Map阶段。 其中InputFormat可以认为是一种类的继承关系,最终通过调用rea 阅读全文

posted @ 2020-03-20 00:04 那山的狐狸 阅读(207) 评论(0) 推荐(0) 编辑

Java实现单词统计

摘要: 原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源 其中,最终出现的次数结果应该是下面的显示 那么在MapReduce中该如何编写代码并出现最终结果? 首先我们把文件上传到HDFS中(hd 阅读全文

posted @ 2020-03-20 00:03 那山的狐狸 阅读(1250) 评论(0) 推荐(0) 编辑

导航