11 2022 档案
25个Pandas高频实用技巧
摘要:参考翻译自:https://github.com/justmarkham/pandas-videos 导入案例数据集 import pandas as pd import numpy as np drinks = pd.read_csv('http://bit.ly/drinksbycountry'
SCI简介和写作顺序
摘要:一、SCI论文组成部分简介 一篇完整的 sci 论文主要包括以下几个主要的组成部分,从前往后依次分别是 Title 就是说这个文章的标题其次是 Abstract 也就是这个文章的摘要。接下来是 Introduction 就是这篇文章的引言。 Introduction 的后面的话是 Methods,它
Hive性能优化
摘要:一、Hive表设计优化 1.1 分区表 1.1.1 Hive查询基本原理 Hive的设计思想是通过元数据将HDFS上的文件映射成表,基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时,默认将其转换为分布式计算MapReduce程序对HDFS中的数据进行读取处理的过程。 例如
Hive实战
摘要:1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的视频热度Top10,以Music为
Hive函数重要应用案例(窗口函数、拉链表)
摘要:五、窗口函数应用实例 5.1 连续登陆用户 需求 当前有一份用户登录数据如下图所示,数据中有两个字段,分别是userId和loginTime。 userId表示唯一的用户ID,唯一标识一个用户,loginTime表示用户的登录日期,例如第一条数据就表示A在2021年3月22日登录了。 现在需要对用户