听见涛声_数说张小桃

日拱一卒 | 梳理、沉淀、数据科学家踩坑之路 | 努力成为数据分析领域python最强的人

导航

2021年12月21日 #

待完成 |常用的10个分析视角

摘要: 【参考】 【1】作为数据分析人员,这10个常用的分析方法你都知道吗? https://zhuanlan.zhihu.com/p/60532545 阅读全文

posted @ 2021-12-21 19:17 数说张小桃 阅读(61) 评论(0) 推荐(0) 编辑

2021年12月13日 #

模型-策略-算法 三要素求解思想

摘要: 学了机器学习,进一步理解到 机器学习方法=模型+策略+算法 三要素构成, 最近在做A/Btest 涉及假设检验,发现也可以用 模型+策略+算法 三要素来理解整个过程。回顾以前在学校里参加过多次数学建模竞赛经验,其实现实中的很多业务量化模型都可以归结为这个三个要素思路求解过程。 因此,这里对这个很好的 阅读全文

posted @ 2021-12-13 10:20 数说张小桃 阅读(295) 评论(0) 推荐(0) 编辑

2021年11月27日 #

F1 score意义

摘要: 一、四种平均算法 平方平均数:Qn=√ [(a12+a22+...+an2)/n] ——>应用:标准差 算术平均数:An=(a1+a2+...+an)/n ——>1阶平均 ,是加权算数平均的一种特殊形式,缺点:容易受极端值影响 几何平均数:Gn=(a1·a2...an)1/n ——> 调和平均数:H 阅读全文

posted @ 2021-11-27 11:27 数说张小桃 阅读(2765) 评论(0) 推荐(0) 编辑

2021年11月15日 #

ROC曲线与AUC面积、Gini系数、KS值 之间关系

摘要: 特别注意区别: (1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。 (2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)和假阳率FPR(误诊率)两个重要的指标得来的。其中AUC 阅读全文

posted @ 2021-11-15 18:50 数说张小桃 阅读(1148) 评论(0) 推荐(0) 编辑

常用损失函数和模型评价指标小结

摘要: 一、损失函数/代价函数/误差函数 1.1 回归问题 平方损失函数(最小二乘法) 光滑损失函数,可用梯度下降法求最优解, 缺点:异常点该损失函数惩罚力度大,因此,对异常点比较敏感。为解决该问题,可以采用绝对损失函数 绝对损失函数 对异常点更鲁棒一些, 缺点:在f=y处无法求导。综合考虑可导性和对异常点 阅读全文

posted @ 2021-11-15 13:59 数说张小桃 阅读(299) 评论(0) 推荐(0) 编辑

待完成 |相关系数和R-squared复杂相关系数 之间关系

摘要: https://www.zhihu.com/question/32021302?sort=created 阅读全文

posted @ 2021-11-15 13:57 数说张小桃 阅读(56) 评论(0) 推荐(0) 编辑

2021年11月11日 #

从向量夹角理解皮尔逊相关系数

摘要: 两个向量的乘积一般有内积(点积)、外积之分,假设两个向量 a = [a1, a2,…, an]和b = [b1, b2,…, bn], 内积则为:a·b =a1b1+a2b2+……+anbn =|a|·|b|cosθ 两向量夹角为: cosθ =a·b /|a|·|b| =a1b1+a2b2+……+ 阅读全文

posted @ 2021-11-11 16:01 数说张小桃 阅读(580) 评论(0) 推荐(0) 编辑

2021年11月7日 #

待完成 |练习项目 |用户流失预测

摘要: 待完成 |练习项目 |用户流失预测及特征分析 参考 【1】 深度分析|《电信用户流失预测模型》(所有分类模型精度平均得分在0.8以上) 2~4 同一携程脱敏数据样本 ,不同分析方法 【2】Python项目实践-客户流失预测 【3】拓端数据 :PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST 阅读全文

posted @ 2021-11-07 11:20 数说张小桃 阅读(67) 评论(0) 推荐(0) 编辑

待完成 |机器学习常用算法原理及优缺点

摘要: 原理: https://www.cnblogs.com/hellochennan/p/6654126.html https://www.cnblogs.com/hellochennan/p/6654128.html https://www.cnblogs.com/hellochennan/p/665 阅读全文

posted @ 2021-11-07 11:17 数说张小桃 阅读(144) 评论(0) 推荐(0) 编辑

ABtest 原理及用法总结

摘要: 一、A/B test 目的 检验产品或活动方案调整优化在某指标上是否有显著改善效果。检验构建实验组和对照组。之后,在后期的观察中,通过一些统计方法,验证效果的差异性是否显著。 二、A/B test 原理 两独立样本t检验(注意区分计算不同:两总体均值检验、两总体率值检验) 三、A/B test 流程 阅读全文

posted @ 2021-11-07 11:03 数说张小桃 阅读(7391) 评论(1) 推荐(1) 编辑

2021年10月31日 #

用户研究 |KANO(卡诺)模型

摘要: KANO模型实操过程 问卷设计与回收→数据清洗→KANO二维属性归属分析→Better-Worse系数矩阵属性进一步归类。可以直接在Excel或SPSS中进行分析。 此外,还可以结合产品的一些数据支持进行结合分析,如用户画像,UV,转化率等。 KANO模型是对功能/服务的优先级进行探索,具体情况还需 阅读全文

posted @ 2021-10-31 23:34 数说张小桃 阅读(3066) 评论(0) 推荐(0) 编辑

2020年4月15日 #

excel超链接无法打开,显示找不到Internet服务器或代理服务器

摘要: 问题: excel 网页超链接无法打开,显示找不到Internet服务器或代理服务器 解决: 今天遇到这个问题。在Internet选项——>连接——>局域网设置里面,发现自动配置被莫名改成了“使用自动配置脚本”,把它取消掉改成自动检测设置就行了。 阅读全文

posted @ 2020-04-15 21:34 数说张小桃 阅读(7214) 评论(0) 推荐(2) 编辑

2020年4月14日 #

如何指标择优、综合?

摘要: 场景问题: 请教大家个问题~ 在工作中可能会有很多个指标来判断一个人或者访问的价值,例如时长,阅读的次数,曝光的次数,之类的很多个指标,那一般用什么算法或者办法去综合评判这个访问的价值。 RFM模型,感觉这个可能更偏向于有购买行为的一些指标,app内的粘性指标感觉不知道怎么往这三个指标上套用。我找到 阅读全文

posted @ 2020-04-14 20:07 数说张小桃 阅读(345) 评论(0) 推荐(0) 编辑

数据标准化和归一化 方法小结

摘要: 特征缩放主要几种方法: 类型 规范化方法 sklearn 类名 说明 标准化 Standardization 标准差标准化 StandardScaler 得到均值为0,标准差1的近似正态分布。如果存在异常值,标准化后影响程度也被降低。 / 稳健标准化 RobustScaler RobustScale 阅读全文

posted @ 2020-04-14 11:37 数说张小桃 阅读(2759) 评论(0) 推荐(0) 编辑

2020年2月8日 #

分类算法小结

摘要: 一、【逻辑回归】 1、原理 线性函数通过一个sigmod函数,即可转换为[0,1]之间的概率值 2、优点 3、缺点 4、应用 二、【朴素贝叶斯】 1、原理 公式:P(A|B)=P(B|A)P(A) /P(B) 由联合概率公式 P(A,B)=P(A|B)P(B)=P(B|A)P(A) 推导而来,P(A 阅读全文

posted @ 2020-02-08 22:30 数说张小桃 阅读(240) 评论(0) 推荐(0) 编辑

2020年1月20日 #

区别 |相关分析vs回归分析

摘要: 函数关系 两个变量x和y,当变量x取某个值,y依赖于x确定的关系取相应的确切地值,则称y是x的函数,记为y =f(x)。其中x为自变量,y为因变量。 如:某商品销售与销量的关系y=px 相关关系 当一个或几个关联变量取一定值,与之对应的另一变量的值虽不确定,但仍按照某种规律在一定范围内变化。现象之间 阅读全文

posted @ 2020-01-20 20:56 数说张小桃 阅读(3651) 评论(0) 推荐(0) 编辑

技巧 |excel 趋势线公式中的x取什么

摘要: 一、如果x与y没有相关关系,往往做基于日期的柱状图——>则趋势线公式中x取值往往会是从1开始的序列值(注意:不是日期),如: 将上图中趋势线公式复制到单元格,x代入序列值,可算出y的预测值。如下: 二、如果x与y有相关关系,往往做x与y对应的散点图——>则趋势线公式中x取值往往是实际样本值。如: 将 阅读全文

posted @ 2020-01-20 19:00 数说张小桃 阅读(3233) 评论(0) 推荐(0) 编辑

2020年1月17日 #

区别 |Python str.split()和re.split()

摘要: str.split() 1、单一分隔符,使用str.split()即可 2、str.split不支持正则及多个切割符号,不感知空格的数量 re.split() 原型: re.split(pattern, string, maxsplit=0) 1、多个分隔符,复杂的分隔情况,使用re.split。通 阅读全文

posted @ 2020-01-17 20:14 数说张小桃 阅读(497) 评论(0) 推荐(0) 编辑

2020年1月14日 #

案例 |思路| 年度KPI如何制定?

摘要: 一、问题: 陈哲老师,年初公司会要制定新一年的考核目标,我们需要根据数据进行相关测算以保证目标的客观合理性,请问您有什么推荐的科学方法吗? 二、思路: 我觉得数据测算是为了解决具体问题的 所以先把到底要解决什么问题还搞清楚 然后再想需要什么数据支撑,使用什么方法。 如果想不出问题,可以尝试用分析视角 阅读全文

posted @ 2020-01-14 20:57 数说张小桃 阅读(480) 评论(0) 推荐(0) 编辑

区别 |时间序列vs线性回归

摘要: 小结: (1)时间序列和回归分析的核心区别在于对数据的假设:回归分析假设每个样本数据点都是独立的;而时间序列则是利用数据之间的相关性进行预测。如:时间序列分析中一个基础模型就是AR(Auto-Regressive)模型,它利用过去的数据点y(t)、y(t-1)等来预测未来y(t+1)。还有如:移动平 阅读全文

posted @ 2020-01-14 17:42 数说张小桃 阅读(6712) 评论(0) 推荐(0) 编辑