摘要: 1、缺失值时间戳不为NaN,为NaT, 同样判断都为isna()或notna()方法2、删值\去重 3、上下值插值 插值借助于函数实现,已知数据去求解位置数据的值,插值在数据分析领域非常常见,好处是可以尽量还原数据本身的样子 线性插值的方法interpolate(),默认的线性插值的好处,在 原数据 阅读全文
posted @ 2019-09-28 07:12 Jude_h 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 爬取网站为:http://xiaohua.zol.com.cn/youmo/ 查看网页机构,爬取笑话内容时存在如下问题: 1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多,多任务进行,这里采用线程池的方式,可以有效地控制系统中并发线程的数量。避免当系统中包含有大量 阅读全文
posted @ 2019-09-17 08:00 Jude_h 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 客户留存分析(客户漏斗分析),关键在于找到影响客户留存的因素,设计场景测试,验证关键因素。即可以通过关键因素影响留存,从而重塑客户漏斗到更有价值的形状。 案例:母婴产品客户留存分析 数据结构: 1)构建用户注册日期对用户购买时间的条形图 新增计算字段:购买点会员生命期(月) 其计算公式为:销售日期和 阅读全文
posted @ 2019-09-12 11:57 Jude_h 阅读(2134) 评论(0) 推荐(0) 编辑
摘要: 1、编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。 + + +| Id | Salary |+ + +| 1 | 100 || 2 | 200 || 3 | 300 |+ + +例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不 阅读全文
posted @ 2019-09-10 14:10 Jude_h 阅读(813) 评论(0) 推荐(0) 编辑
摘要: 1、首先确定数据分析目标——薪酬受哪些因素影响 确定变量: 因变量:薪资 自变量:(定性)-- 公司类别、公司规模、地区、行业类别、学历要求、软件要求、 (定量)-- 经验要求(数值型) 分析目标:建立因变量和自变量的多元线性回归模型,估计模型系数,检验系数显著性,确定自变量是否对因变量有影响。并实 阅读全文
posted @ 2019-09-09 09:27 Jude_h 阅读(2191) 评论(1) 推荐(0) 编辑
摘要: 译:用户和图形界面 GUI与程序交互的不同方式,包含3基本要素:输入,处理和输出。 常用GUI框架包括以下几种: wxPython Kivy Flexx PyQt Tkinter Pywin32 PyGTK pyui4win 熟悉PyQt框架: 安装 pip install pyqt5 使用第三方工 阅读全文
posted @ 2019-09-01 19:18 Jude_h 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: 1、安装R包Rserve 2、tableau帮助-管理外部服务连接,单击测试按钮出现成功连接即是通信成功。 3、创建新工作表,设置id字段,针对id记录数创建计算字段Rrand。将Rrand拖入行维度上id的后面,运算后会得到R返回的随机数。 更高的要求:只有当R返回的记录数和输出的记录数相匹配时, 阅读全文
posted @ 2019-09-01 08:59 Jude_h 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 主要分析方面:客户合理分群 客户分群实现:使用聚类构建指标,需理解聚类的分析逻辑,需使用软件:tableau 聚类方法:选择3指标分别为购买总金额,客户购买次数、类平均购买价格(四类的平均购买价格,四类字段列进行avg聚合) 类平均购买价格:计算消费数据中所以四级品类消费金额的平均值,等于为每个品类 阅读全文
posted @ 2019-08-31 18:20 Jude_h 阅读(4348) 评论(0) 推荐(0) 编辑
摘要: 1、Python中面向对象程序设计特点:封装、继承和多态 关于继承:可以打个形象的比方 矩形、菱形、平行四边形和梯形等都是四边形,以平行四边形为例,如果把平行四边形看成四边形的延伸,那么平行四边形就复用了四边形的属性和行为,同时添加了平行四边形特有的属性和行为,如平行四边形的对边平行且相等。 >在P 阅读全文
posted @ 2019-08-19 07:39 Jude_h 阅读(197) 评论(0) 推荐(0) 编辑
摘要: Scipy库在numpy库基础上增加了众多数学,科学及工程计算中常用库函数。如线性代数,常微分方程数值求解,信号处理,图像处理,稀疏矩阵等。 如下理解通过Scipy进行最小二乘法拟合运算 最小二乘拟合(optimize子函数) from scipy.optimize import leastsq o 阅读全文
posted @ 2019-08-04 14:38 Jude_h 阅读(2980) 评论(0) 推荐(0) 编辑