商务统计学
商务统计学
《商务统计学》第七版
作者:戴维·莱文等,审校:胡大源
审校者序
- 商务统计学可以解释为在准确调查研究基础上,对可靠的数据进行分析与概括,整体出一套有助于经营管理者在不确定条件下作出正确决策的原理和方法
- 之所以选用莱文等作者的《商务统计学》,是因为我们在翻译第五版的时候就感到本书的实用性强
- 贝叶斯定理可以帮助我们通过大数据分析识别违约者
- 对于人工智能或机器学习,成效往往不仅仅取决于数据的大小,更重要的是算法是否符合实际
- 理解商务统计的关键在于结合现实问题进行思考和分析。而本书有大量切合实际的案例和习题。“本书更注重那些学以致用的读者的需求”
- 善于触类旁通的决策者可以根据掌握的各种信息和丰富的个人经历迅速进行类比,分析异同,做出判断,做出判断,制定对策。这正是百年哈佛商学院案例教学法的精妙之处
与众多统计学著作相比,本书的特色如下
- 本书更适合学以致用的读者(相比大学里的概率论或者数理统计,有更直接的案例,通过案例来理解计算与模型,而不是先理解如何计算)
- 帮助读者了解统计学对改进经营管理和不断创新的重要意义
- 对大多数读者,对统计结果的理解比了解计算过程更重要。统计学家乔治·博克斯的名言“所有模型都是错误的,但有些是有用的” --- 即,数学模型是在特定假设下建立的,而现实问题错综复杂,通常难以满足模型的假设条件
另,
- 管理者(决策者)的调查研究能力和基于数据分析的决策能力远比管理信息系统的升级重要
首先要学的重要内容
在当今的世界,你不可能逃避数据,但你可以躲开数据---你完全可以凭借感觉去做决策,但是这会导致效率大为降低。因此当你意识到你躲不开数据的时候,你就会理解"处理数据"是一项重要技能,而在验证(使用)这项技能的过程中,你就发现你无法躲开统计学
1. 统计学是一种思维方式
想要更好地理解统计学是一种思维方式,你需要一个框架来把统计学的各项任务组织起来---使用“DCOVA框架”
- 定义(define)为解决某个问题或实现某个目标而需要研究的数据
- 从适当的来源收集(collect)数据
- 对数据今次那个·进行整理(organize)
- 图形化、可视化(visualize)
- 分析(analyze)数据得出结论并演示结果
借助DCOVA框架有利于在商业活动的四个方面应用统计学方法
- 概括商务数据并使其可视化
- 从数据分析中得出结论
- 对商务活动做出可靠预测
- 改进商务管理过程
2. 数据:应该如何定义
数据
- 数据(data)是,有助于事务发生的某个特质或某个属性的值。如本书的每一个作者的名字。
- 如果将数据简单定义为“关于这个世界的事实”,而事实又具有单一性和集合性(如何“戴维·莱文”和“本书的合著者”),那么如何区分这两个关于本书的完全不同的事实呢?统计学家因此给出了一个更为确切的数据定义---变量
- 变量(variable)用来表示与数据数值相关的事务的特征或属性。若对本书的数据集进行定义,那么“合著者”和“书名”就定义为变量
(上述这些应该是英文原版中对用词的规范,不影响对翻译版的理解,看看即可)
统计学
- 统计学,定义为将数据转化为对决策者有用的信息的方法
- 统计学有助于确定数值差异是否有显著的实际意义,或者这种差异仅仅是偶然所致。
- 统计描述,主要用来概括和展示数据(比如最基本的计数)
- 统计推断,则利用从小群体收集的数据来得出有关大群体的结论
3. 统计学正在改变面貌
商务分析学
- 商务分析学将传统的统计方法与信息科学结合在一起,形成了一套跨学科的分析工具,用来支持以事实为依据的管理决策。商务分析学可以帮助你
- 应用统计方法分析和探讨数据,找出人们无法预测的事务间的关联关系
- 应用管理科学的方法,开发优化模型,改进从战略制定到各个层面的日常运营管理
- 使用信息系统的方法来手机和处理不同容量的数据集,包括容量巨大的数据集。
大数据
大数据,用传统方法不易浏览或分析的数据集合(数据量很大、数据生产速度快、数据形式多种多样)
4. 统计学,商学教育中的重要的组成部分
- 数据导向已被证明是成功的。应用数据与数据分析进行商务决策不容小觑。
5. 本书章节的几个部分
- 第1章:定义域收集任务
- 第2,3章:整理与可视化任务
- 第3,4~11章:分析任务的方法,有助于使用样本数据得出结论
- 第12,13章:分析任务方法,有助于做出可靠预测
第一章 数据定义与收集
1.1定义变量
对每个感兴趣的变量,你必须提供一个可操作性定义。(也就是《精益数据分析》中要将恰当的比例作为指合适的指标)
划分变量类型
- 属性变量(定性变量)--- eg.你有FaceBook账户吗
- 数值变量(定量变量)
- 离散变量,是计数过程得出的结果 --- 过去三天你发了多少条短信;购买物品的数量;总共支付的次数
- 连续变量,是测量过程得出的结果 --- 手机中的应用程序用了多长时间;两地之间不同公路的距离
数据来源
原始数据来源 --- 自己收集的数据
二手数据来源 --- 他人收集的数据
(更加“计算机化一点”,网站的数据埋点,用户调查问卷,用户自己产生的数据,统计AB实验的实验数据,爬虫等等)
1.2数据收集
总体与样本
结构化和非结构化的数据
同样形式的数据可能有多种格式,一些格式,比如短信,就没有或者只有很少重复的结构,这就是非结构化数据。
本书所讨论的统计方法需要将非结构化数据转化为结构化数据。
电子格式与再编码
顾名思义,举例就是,将图片中的数字经过扫描提取并存放如结构化的表格或者数据库中
对变量重新编码需要明确定义类别并使每个数据的值只能分配到一个类别,称为互斥
还要确保你为重新编码的变量建立一组类别包括全部记录数据的值,称为完备
再编码要求即互斥又完备
亦可在再编码的过程中保留一个或多个原来的属性类别
数据清洗
处理异常值、缺失值
1.3 抽样方法的类型
抽样框
抽样的过程从定义抽样框开始,抽样框是对组成总体的一系列条目的全部或部分列举。使用不同的抽样框有可能造成不准确或有偏差的,甚至是相反的结果
概率样本与非概率样本
选择抽样框后再从抽样框中抽取概率样本或非概率样本
- 概率样本 --- 我们基于已知的概率来抽取样本
- 非概率样本 --- 我们选择条目(字段更好理解),但并不知道选择概率是多少。
- 便利,快速,低成本。
- 非概率样本不能用于统计推断,这抵消了它便捷的好处
样本分类
-
判断样本,由市场调查的专家来选取样本的一种方法。优点是按照调查人员的需求来选定样本,较好地满足调查的需要。缺点是不能把结果推广到一般公众。
-
便利样本,也叫“任意抽样”,选择简单、低成本且方便的条目作为样本。例如,某仓库的商品成堆存放,我们仅抽取每一堆最上面的商品组成样本,这就构成了一个便利样本。
-
简单随机样本,抽样框的每个条目都有相同的机会被选中,而且,每组相同的样本都有相同的概率被选中。是其他随机抽样概率的基础。但它通常比其他抽样方法有更大的波动。且当抽样框非常大时,可能要花费很长时间和高额成本
简单随机抽样中又可分为
- 可重复抽样(抽取后放回)
- 不可重复抽样(抽取后不放回)
- 随机数表抽样(随机数表由一系列按照随机顺序排列的个位数字构成)
-
系统样本,将抽样框中的N个条目分为n组,每组包含N/n=k个条目(非整数时对k四舍五入),抽样时每组抽取一个条目,n组共计n个条目
- 如果抽样框是由一系列事先编号过的东西构成,那么系统抽样比简单随机样本更快,更容易获取。
- 为解决简单随机抽样的低效和系统抽样潜在的选择性偏差,我们可以使用分层抽样或者聚类抽样
-
分层样本,通俗地讲,层依据某种特征划分,我们在每一层 中选择简单随机样本,然后加以合并。比如在学校中按照年级划分层,分层抽样有如下好处
- 由于保证了样本对总体的代表性,因此分层抽样比简单随机抽样和系统抽样效率更高
- 各层中的个体条目的同质性也使得总体参数估计更有精度
- 分层抽样还可以使我们就每一层得出结论
相应的代价是,
- 分层抽样要求我们能够判定分层所依据的变量
- 实施起来成本比较昂贵
-
聚类样本,把抽样框中的N个条目分成若干聚类。这些聚类通常是自然形成的标识,比如镇、区、销售区域、家庭等。然后选择一个或多个聚类的简单随机样本,研究选择的聚类中的所有条目。
1.4 调查误差的类型
调查是收集数据的主要方式之一,你必须通过检验调查的价值来批判地评价所见所闻。(其实感觉统计学的数据收集方式还是主动式的,其实通过技术手段,已经有很多"被动式"的信息收集手段,就比如说数据埋点,用户行为记录等)
- 为什么进行调查以及调查是为谁而做的
- 区分调查是居于概率样本还是非概率样本(只有概率样本才可以进行统计推断)
调查误差
-
覆盖面误差 --- 构成总体的某些群体没包括在抽样框中从而没有机会被选到,或者从抽样框之外进行选取,覆盖面误差会导致选择性偏差
-
无回复误差 --- 不是所有人都愿意回答调查问卷,无法收集到样本里所有条目的数据会导致无回复偏差
-
抽样误差 --- 机遇决定哪些人和条目会被包括进样本中,因此不同样本之间,特定的个体或条目依据概率被选入特定的样本的可能性会有变动
比如“民意检测的结果语句在真实值的+-3%以内”,就是抽样误差
-
测量误差 --- 模糊的问题,不够精准的测量方法(就是说无法准确量化的),会产生误差
调查中产生的伦理道德问题
- 追求更加符合调查研究赞助人的意愿而导致的覆盖面偏差(选择性偏差)
- 赞助人干预调查问卷的设计从而使群体和个人偏向与不回答问题,而导致无回复偏差
- 在发布结果的时候不说明与样本容量和误差范围,以便推销其并不显著的观点,造成抽样误差成为道德问题
- 测量误差与道德问题
- 诱导性问题
- 采访者通过举止或语言诱导回答
- 受访者故意提供错误信息
- 使用非概率样本时,必须解释抽样的具体步骤并说明结论不可以超过样本的范围进行判断,否则会产生道德问题