随笔分类 - 数据科学
发表于 2019-12-29 20:58阅读:1403评论:1推荐:0
摘要:求置信区间 抽取样本, 样本量为200 np.random.seed(42) coffee_full = pd.read_csv('coffee_dataset.csv') coffee_red = coffee_full.sample(200) #this is the only data you
阅读全文 »
发表于 2019-12-22 21:33阅读:164评论:0推荐:0
摘要:在抽样与抽样分布的基础上,根据样本统计量来推断总体参数。 详见简书:https://www.jianshu.com/p/5445b95379ce
阅读全文 »
发表于 2019-12-16 11:19阅读:2259评论:0推荐:0
摘要:代码 import pandas as pd import numpy as np import plotly.plotly as py import plotly.graph_objs as go path = '/home/v-gazh/PycharmProjects/us_data/limit
阅读全文 »
发表于 2019-12-15 22:35阅读:1685评论:0推荐:0
摘要:参考链接:https://github.com/v-gazh/LearningStatsGroup/blob/master/week7/week7.ipynb 源地址:https://github.com/AeneasZhu/LearningStatsGroup/blob/master/week7/
阅读全文 »
发表于 2019-12-08 19:29阅读:2815评论:0推荐:0
摘要:统计量 统计学中最主要的提取信息的方式就是对原始信息进行一定的运算,得出某些代表性的数字,以反映数据某些方面的特征,这种数字被称为统计量。用统计学语言表述,统计量是样本的函数,它不依赖于任何未知函数。推断统计学的重要作用就是,通过从总体中抽取样本构造适当的统计量。 常用统计量 抽样分布 在总体X的分
阅读全文 »
发表于 2019-12-01 20:14阅读:623评论:0推荐:0
摘要:二项分布式 import numpy as np import matplotlib.pyplot as plt list = np.random.binomial(n=10, p=0.5,size = 10000) plt.hist(list, bins = 8,color = 'g', alph
阅读全文 »
发表于 2019-11-24 21:42阅读:823评论:0推荐:0
摘要:基本概念 随机变量 在做实验时,常常是相对于试验结果本身而言,我们主要还是对结果的某些函数感兴趣。 例如,在掷骰子时,我们常常关心的是两颗骰子的点和数,而并不真正关心其实际结果; 就是说,我们关心的也许是其点和数为7,而并不关心其实际结果是否是(1,6)或(2,5)或(3,4)或(4,3)或(5,2
阅读全文 »
发表于 2019-11-10 21:31阅读:1706评论:0推荐:0
摘要:数据的集中趋势 众数 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。 一组数据中的众数不止一个,如数据2、3、-1、2、1、3中,2、3都出现了两次,它们都是这组数据中的众数。
阅读全文 »
发表于 2019-11-03 23:26阅读:591评论:0推荐:0
摘要:数据预处理 数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。 数据审核 数据审核就是检查数据中是否有错误。 对于通过调查取得的原始数据(raw data),主要从完整性和准确性两个方面去审核。 完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否
阅读全文 »
发表于 2019-07-28 20:59阅读:276评论:0推荐:0
摘要:python环境安装 过于基础,此处就不细写了,可参考:https://www.runoob.com/python/python-install.html Python基本数据类型 可变、不可变数据类型 可变数据类型 列表、字典、集合--不可哈希 集合里存的元素必须是不可变的数据类型,无序,不重复(
阅读全文 »