摘要: 查询7天连续登陆用户这个问题很经典,解决方法也有很多,这里我讲一下笔者的方法,希望对大家有帮助。 具体思路: 1、因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重。 2、再用row_number() over(partition by _ order by _)函数将用户id分组 阅读全文
posted @ 2019-12-09 18:50 kww 阅读(29209) 评论(5) 推荐(2) 编辑
摘要: 最近笔者在学习数据分析时看到一篇关于数据分析思维的总结,在此记录一下关于指数方法的总结 指数法还可分为线性加权与Log方式,通过这两种方式我们可以将一组差异巨大的数组划分在一个很小的范围,且具有较好的参考价值。 例如:当拿到一组关于全国美食的数据,其中包括省份,城市,店铺类型,店铺名称,评价数量,客 阅读全文
posted @ 2019-12-06 19:54 kww 阅读(986) 评论(0) 推荐(0) 编辑
摘要: 笔者环境:操作系统Ubuntu,Python3.7.4 最近笔者在虚拟机上安装pandas时候遇到了各种各样的问题,在导入pandas包时就提示出错。然后借助查找各种资料最终解决了问题。 第一个错误就如上述ModuleNotFoundError: No module named '_bz2',在查阅 阅读全文
posted @ 2019-09-18 17:40 kww 阅读(18369) 评论(0) 推荐(1) 编辑
摘要: 生成数组 常见的生成数组方法 import numpy as np testdata = np.arange(16)#生成指定数量个整型元素的数组 test_data = np.full((2,3),9)#指定生成2行3列,元素全为9的数组 data1 = np.zeros(15)#生成指定数量个元 阅读全文
posted @ 2019-09-17 19:46 kww 阅读(1770) 评论(0) 推荐(0) 编辑
摘要: 折线图: import matplotlib.pyplot as plt import random plt.figure(figsize = (20,8),dpi = 100) x = range(40) y = [random.uniform(18,22) for i in range(40)] 阅读全文
posted @ 2019-09-10 16:28 kww 阅读(2369) 评论(0) 推荐(0) 编辑