2020 年 3月 20 日随笔档案 - 那山的狐狸

Hive实现网站PV分析

摘要：原文链接： https://www.toutiao.com/i6773241257528394248/ 之前我们做过《java mapreduce实现网站PV分析》，这次我们可以用hive分析一些需求指标提出需求：统计分析24小时各个时段的pv和uv 分析：（1） pv统计总的浏览量 count 阅读全文

posted @ 2020-03-20 23:43 那山的狐狸阅读(370) 评论(0) 推荐(0) 编辑

win10中查看开关机时间及查看admin的RID的方法

摘要：原文链接： https://www.toutiao.com/i6772133439593251339/ 打开系统的注册表键盘输入win+r组合键出现运行窗口命令输入regedit 按回车键，进入注册表编辑器依次展开"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\W 阅读全文

posted @ 2020-03-20 23:39 那山的狐狸阅读(914) 评论(0) 推荐(0) 编辑

sqoop的使用之import导入到HDFS

摘要：原文链接： https://www.toutiao.com/i6772128429614563843/ 首先我们已经安装好sqoop了，如果没有安装好参考文档《快速搭建CDH-Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境》准备一些基本的认识 1、sqoop分为阅读全文

posted @ 2020-03-20 23:32 那山的狐狸阅读(910) 评论(0) 推荐(0) 编辑

快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境

摘要：原文链接： https://www.toutiao.com/i6771763211927552523/ CDH简单了解 CDH: C：cloudera(公司) D：distribute H：Hadoop 解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题，不用自己编译, CDH适合商用阅读全文

posted @ 2020-03-20 23:26 那山的狐狸阅读(260) 评论(0) 推荐(0) 编辑

Hive的连接和运行模式

摘要：原文链接： https://www.toutiao.com/i6771018203687551495/ Hive的连接启动hadoop的时候将history也启动，如果出问题，可以方便我们后续定位首先将Hive变成对外开放启动hiveserver2 我们查看下如果杀掉需要用kill -9 P 阅读全文

posted @ 2020-03-20 23:22 那山的狐狸阅读(375) 评论(0) 推荐(0) 编辑

Hive与MapReduce相关排序及自定义UDF函数

摘要：原文链接： https://www.toutiao.com/i6770870821809291788/ Hive和mapreduce相关的排序和运行的参数 1.设置每个reduce处理的数据量（单位是字节）我们在hive中查看下配置文件hive-site.xml.template 我们打开配置文阅读全文

posted @ 2020-03-20 23:09 那山的狐狸阅读(515) 评论(0) 推荐(0) 编辑

Hive的导入导出和常用过滤语句的学习

摘要：原文： https://www.toutiao.com/i6769166601871688196/?group_id=6769166601871688196 数据的导入 load data [local] 创建数据表加载数据 load data local inpath '/data/hivete 阅读全文

posted @ 2020-03-20 00:29 那山的狐狸阅读(349) 评论(0) 推荐(0) 编辑

Hive的分析函数的使用

摘要：原文： https://www.toutiao.com/i6769120000578945544/?group_id=6769120000578945544 我们先准备数据库、表和数据开窗分析函数相对于mysql中的聚合函数区别是：分析函数是基于某个组多个数据进行计算聚合，而聚合函数是每个组返回一阅读全文

posted @ 2020-03-20 00:28 那山的狐狸阅读(227) 评论(0) 推荐(0) 编辑

Hive分区表和桶表的使用

摘要：原文链接： https://www.toutiao.com/i6766897068138037763/?group_id=6766897068138037763 我们看官网文档中这个地方我们先创建好数据库，以供练习使用数据库我们创建数据表我们创建分区表，选取的字段不能是表中存在的字段元数据阅读全文

posted @ 2020-03-20 00:26 那山的狐狸阅读(268) 评论(0) 推荐(0) 编辑

Hive建表和内外部表的使用

摘要：原文链接： https://www.toutiao.com/i6766784274965201415 一、普通建表方式 create table stu_info( id int, name string )ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 阅读全文

posted @ 2020-03-20 00:24 那山的狐狸阅读(649) 评论(0) 推荐(0) 编辑

Hive的基本概念和常用命令

摘要：原文链接： https://www.toutiao.com/i6766571623727235595/?group_id=6766571623727235595 一、概念： 1、结构化和非结构化数据结构化数据：固有的键值对非结构数据：没有固定的键值对，没有明确的映射关系所以就可以理解下面这句话阅读全文

posted @ 2020-03-20 00:23 那山的狐狸阅读(480) 评论(0) 推荐(0) 编辑

java mapreduce二次排序

摘要：原文链接： https://www.toutiao.com/i6765808056191156748/ 目的：二次排序就是有下面的数据 a 3 a 1 a 100 c 1 b 2 如果只按照abc排序就会变成 a 3 a 1 a 100 b 2 c 1 我们希望是第二列也参与排序 a 1 a 3 阅读全文

posted @ 2020-03-20 00:09 那山的狐狸阅读(282) 评论(0) 推荐(0) 编辑

java mapreduce实现网站PV分析

摘要：原文链接： https://www.toutiao.com/i6765677128022229517/ PV 是Page Views的缩写，即页面浏览量，用户每一次对网站中的每个网页访问均被记录一次。注意，访客每刷新一次页面，pv就增加一次。我们目前的数据是：其中的数据我们会得到标注根据标注我阅读全文

posted @ 2020-03-20 00:07 那山的狐狸阅读(241) 评论(0) 推荐(0) 编辑

mapreduce实现数据去重

摘要：原文链接： https://www.toutiao.com/i6764933201203823107/ 概念："数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据阅读全文

posted @ 2020-03-20 00:06 那山的狐狸阅读(695) 评论(0) 推荐(0) 编辑

Hadoop的Shuffle阶段

摘要：原文： https://www.toutiao.com/i6764683672772674062/ 在进入Map之前，首先会将数据从HDFS中读取，进行处理，按照字节偏移量这种之前说的形式处理为K,V对的形式，进入Map阶段。其中InputFormat可以认为是一种类的继承关系，最终通过调用rea 阅读全文

posted @ 2020-03-20 00:04 那山的狐狸阅读(207) 评论(0) 推荐(0) 编辑

Java实现单词统计

摘要：原文链接： https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数，比如下面的数据源其中,最终出现的次数结果应该是下面的显示那么在MapReduce中该如何编写代码并出现最终结果？首先我们把文件上传到HDFS中(hd 阅读全文

posted @ 2020-03-20 00:03 那山的狐狸阅读(1250) 评论(0) 推荐(0) 编辑