随笔分类 -  大数据

摘要:在数据处理中,经常有高频数据转成低频,秒级数据转成分钟、小时数据等。我们将讨论以下方法: 使用 Pandas 的 resample 方法: 示例:将天数据转化成月数据。 代码示例: import pandas as pd import numpy as np # 创建随机成绩score数据 df = 阅读全文
posted @ 2024-05-19 13:20 TY520 阅读(71) 评论(0) 推荐(0) 编辑
摘要:在数据处理中,分箱、分组是一种常见的技术,用于将连续数据的间隔分组到“箱”或“桶”中。我们将讨论以下两种方法: 使用 Pandas 的 between 和 loc 方法: between 方法返回一个布尔向量,指示 Series 元素是否位于给定的边界值之间。 loc 方法用于根据条件选择数据。 示 阅读全文
posted @ 2024-05-18 23:33 TY520 阅读(57) 评论(0) 推荐(0) 编辑
摘要:#### hive如何实现两个区域人均利润一样的时候,排名一样,出现1、2、2、3、4,这种重复排名的情况? 1. 方案一 在Hive中,可以使用窗口函数和排名函数来实现重复排名的情况。具体步骤如下: 使用窗口函数计算每个区域的人均利润,并按照人均利润降序排列。 使用排名函数对每个区域的人均利润进行 阅读全文
posted @ 2023-08-13 21:59 TY520 阅读(13) 评论(0) 推荐(0) 编辑
摘要:# Hive Hive官网:https://hive.apache.org/ ##### 简介 ​ Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thri 阅读全文
posted @ 2023-04-16 13:00 TY520 阅读(91) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示