12 2019 档案

摘要:z检验: 计算临界值:scipy.stats.norm.ppf(level_of_confidence) 计算p值:scipy.stats.norm.sf(abs(z_score)) 或 1-scipy.stats.norm.cdf(abs(z_score)) 左尾或右尾,双尾检验需在此基础上乘以2 阅读全文
posted @ 2019-12-29 15:51 HuZihu 阅读(16042) 评论(0) 推荐(1) 编辑
摘要:说了那么多假设检验的理论,现在来让我们上手操作一下。 这里我自己编造了一个A/B测试的例子: 某公司原来的购买转化率是30%,现在想通过把其网页上的”购买“按钮加大一倍,使购买转化率提升到33%。 可以看到这里的对比指标是转化率,因此这里适用两独立样本比率检验。 原假设:对照组的购买转化率与试验组的 阅读全文
posted @ 2019-12-29 12:32 HuZihu 阅读(2863) 评论(0) 推荐(0) 编辑
摘要:比如说,我导入了statsmodels包,但是发现没法使用这个包里面的方法: import statsmodels print(statsmodels.stats.proportion.proportion_effectsize(prop1=0.3, prop2=0.33)) 提示发生错误: Att 阅读全文
posted @ 2019-12-28 16:18 HuZihu 阅读(2326) 评论(0) 推荐(0) 编辑
摘要:数据分析师主要处理的几种工作内容: 1,临时性需求(专题分析):比如说监控到现有的指标出现了异常情况,需要通过数据分析去找原因 2,制作日常报表:日报,周报,月报,数据仪表板,等等 3,数据挖掘:比如通过做用户分析(行为、设备、渠道、心理等等各种分析,例如:用户路径分析和转化漏斗分析),做“用户分层 阅读全文
posted @ 2019-12-27 21:18 HuZihu 阅读(7642) 评论(0) 推荐(0) 编辑
摘要:AARRR模型是“增长黑客”中驱动用户增长的核心模型。模型的提出者认为,所有成长型的企业都应该按照这个模型来做增长。 AARRR:从获取用户(Acquisition)、提高活跃度(Activition)、提高留存率(Retention)、获取营收(Revenue)和自传播(Referral)这5个阶 阅读全文
posted @ 2019-12-27 15:34 HuZihu 阅读(1388) 评论(0) 推荐(0) 编辑
摘要:什么是A/B测试? A/B 测试是一种产品优化的方法,为同一个优化目标制定两个方案(比如两个页面),让一部分用户使用A 方案(称为控制组或对照组),同时另一部分用户使用 B 方案(称为变化组或试验组),统计并对比不同方案的转化率、点击量、留存率等指标,以判断不同方案的优劣并进行决策。 A/B测试的本 阅读全文
posted @ 2019-12-26 21:41 HuZihu 阅读(4744) 评论(0) 推荐(0) 编辑
摘要:数据分析方法论 营销方面:4P,用户使用行为,STP理论,SWOT,等等 管理方面:PEST,5W2H,生命周期,逻辑树,金字塔模型,SMART原则,等等 4P理论 从产品(Product)、价格(Price)、渠道(Place)和促销(Promote)这四个方面分析市场。适用于公司整体经营状况的分 阅读全文
posted @ 2019-12-23 21:39 HuZihu 阅读(2494) 评论(0) 推荐(0) 编辑
摘要:在理解什么是埋点之前,首先需要了解一些基础知识:(以下摘自:http://www.chinawebanalytics.cn/auto-event-tracking-good-bad-ugly/) 我们能够监测网站上用户的行为,或者app上用户的行为,都需要在网站的每一页或者app中加上一些程序代码( 阅读全文
posted @ 2019-12-23 17:52 HuZihu 阅读(18535) 评论(0) 推荐(2) 编辑
摘要:以下是几种常见的离散型概率分布和连续型概率分布类型: 伯努利分布(Bernoulli Distribution):常称为0-1分布,即它的随机变量只取值0或者1。 伯努利试验是单次随机试验,只有"成功"(1)或"失败"(0)这两种结果。假如某次伯努利实验成功的概率为p,失败的概率为q=1-p,那么实 阅读全文
posted @ 2019-12-21 14:00 HuZihu 阅读(5005) 评论(0) 推荐(0) 编辑
摘要:概率(Probability):事件发生的可能性的数值度量。 组合(Combination):从n项中选取r项的组合数,不考虑排列顺序。组合计数法则:。 排列(Permutation):从n项中选取r项的组合数,考虑排列顺序。排列计数法则:。 贝叶斯定理(Bayes's Theorem):获取新信息 阅读全文
posted @ 2019-12-20 22:04 HuZihu 阅读(1688) 评论(0) 推荐(0) 编辑
摘要:以下是常用的假设检验类型: 使用python进行各假设检验的代码请见下面链接: 单样本t检验,独立样本t检验,配对t检验,单因素方差分析,卡方分布检验,Levene's test,卡方独立性检验,卡方拟合优度检验:https://www.cnblogs.com/HuZihu/p/11442833.h 阅读全文
posted @ 2019-12-19 16:27 HuZihu 阅读(2471) 评论(0) 推荐(0) 编辑
摘要:非参数检验(non-parametric test):对总体分布形式没有要求,不比较总体参数,只比较总体分布的位置是否相同,也被称为无分布方法(distribution-free method)。相对于参数检验基本只能用于数值型数据的情况,非参数检验还可以用于类别型数据。 由于很多参数检验要求总体服 阅读全文
posted @ 2019-12-18 21:28 HuZihu 阅读(5230) 评论(0) 推荐(0) 编辑
摘要:在《假设检验(Hypothesis Testing)》一文中,我们罗列了关于比较均值或方差的几种假设检验类型。除此之外,还有一种经常用到的检验类型,那就是比较比率(proportion)的假设检验。比如说,使用A方案的付费转化率为30%,使用B方案的付费转化率为34%,请问这两个转化率之间是否有显著 阅读全文
posted @ 2019-12-13 16:28 HuZihu 阅读(14668) 评论(1) 推荐(1) 编辑
摘要:一份完整的假设检验报告应该包括以下内容: 1, 描述统计 对样本数据进行描述统计,报告平均值和标准差等。可以用文本和图表进行展示。 2, 推断统计 (1)假设检验 原假设,备择假设,检验类型,样本量,抽样分布类型,检验方向,显著性水平α,检验统计量的值,p值,结论 (2)置信区间 置信度,置信度对应 阅读全文
posted @ 2019-12-12 12:53 HuZihu 阅读(1614) 评论(0) 推荐(0) 编辑
摘要:在《如何计算假设检验的功效(power)和效应量(effect size)?》一文中,我们讲述了如何根据显著性水平α,效应量和样本容量n,计算功效,以及如何根据显著性水平α,功效和样本容量n,计算效应量。但这两个应用都属于事后检验,也就是说,就算假设检验之后计算出的功效或效应量不理想,我们也没有办法 阅读全文
posted @ 2019-12-11 22:26 HuZihu 阅读(26006) 评论(0) 推荐(0) 编辑
摘要:做完一个假设检验之后,如果结果具有统计显著性,那么还需要继续计算其效应量,如果结果不具有统计显著性,并且还需要继续进行决策的话,那么需要计算功效。 功效(power):正确拒绝原假设的概率,记作1-β。 假设检验的功效受以下三个因素影响: 样本量 (n):其他条件保持不变,样本量越大,功效就越大。 阅读全文
posted @ 2019-12-11 10:57 HuZihu 阅读(46710) 评论(0) 推荐(0) 编辑
摘要:误区一:如果不能拒绝原假设,那么便接受原假设(错误) 在大多数假设检验的应用中(即显著性检验),虽然对发生第一类错误的概率进行了控制,但并没有控制第二类错误发生的概率。因此,如果样本数据不能拒绝原假设,我们决定接受原假设的话,其实并不能确定该决策有多大的可信度。因此,我们在叙述中通常用“无法拒绝原假 阅读全文
posted @ 2019-12-08 20:46 HuZihu 阅读(2542) 评论(0) 推荐(0) 编辑
摘要:格利文科定理:每次从总体中随机抽取1个样本,这样抽取很多次后,样本的分布会趋近于总体分布。也可以理解为:从总体中抽取容量为n的样本,样本容量n越大,样本的分布越趋近于总体分布。 (注:总体数据需要独立同分布) 阅读全文
posted @ 2019-12-08 11:37 HuZihu 阅读(4689) 评论(0) 推荐(1) 编辑
摘要:几种常见的假设检验总结如下: 假设检验名称 Z检验 t检验 χ2检验 F检验 原假设 H0: μ≥μ0 H0: μ≤μ0 H0: μ=μ0 (比较样本和总体均值) H0: μ1-μ2≥0 H0: μ1-μ2≤0 H0: μ1-μ2=0 (比较两样本均值) H0: μd≥0 H0: μd≤0 H0: 阅读全文
posted @ 2019-12-07 18:35 HuZihu 阅读(4790) 评论(0) 推荐(0) 编辑
摘要:推断统计(Inferential Statistics):利用样本信息对总体进行估计和假设检验。 总体(population):在一个特定研究中所有感兴趣的个体组成的集合。 样本(sample):总体的一个子集。 样本统计量(sample statistics):样本数据的计算度量。 总体参数(po 阅读全文
posted @ 2019-12-07 17:52 HuZihu 阅读(5179) 评论(0) 推荐(0) 编辑
摘要:大数定律:每次从总体中随机抽取1个样本,这样抽取很多次后,样本的均值会趋近于总体的期望。也可以理解为:从总体中抽取容量为n的样本,样本容量n越大,样本的均值越趋近于总体的期望。当样本容量极大时,样本均值 。 (注:总体数据需要独立同分布) 下图展示的是:每次从1,2,3当中随机选取一个数字,随着抽样 阅读全文
posted @ 2019-12-05 22:18 HuZihu 阅读(2299) 评论(0) 推荐(1) 编辑
摘要:概率抽样方法: 1. 随机抽样(random sampling):从有限总体中简单随机抽样或从无限总体中随机抽样。 具体实现方式:a. 抽签法;b. 随机数字法 2. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层(Strata), 然后从每一层中随 阅读全文
posted @ 2019-12-03 11:38 HuZihu 阅读(7494) 评论(0) 推荐(0) 编辑
摘要:切比雪夫定理(Chebyshev's theorem):适用于任何数据集,而不论数据的分布情况如何。 与平均数的距离在z个标准差之内的数值所占的比例至少为(1-1/z2),其中z是大于1的任意实数。 至少75%的数据值与平均数的距离在z=2个标准差之内; 至少89%的数据值与平均数的距离在z=3个标 阅读全文
posted @ 2019-12-03 10:16 HuZihu 阅读(18399) 评论(0) 推荐(0) 编辑
摘要:中心极限定理:每次从总体中抽取容量为n的简单随机样本,这样抽取很多次后,如果样本容量很大,样本均值的抽样分布近似服从正态分布(期望为 ,标准差为 )。 (注:总体数据需独立同分布) 那么样本容量n应该达到多大时,才能应用中心极限定理呢?答:对于大多数应用,当样本容量大于等于30时就可以。(当总体分布 阅读全文
posted @ 2019-12-03 10:06 HuZihu 阅读(12736) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示