Data
Stay hungry,Stay foolish!

导航

 

2018年11月14日

摘要: 层次化索引 层次化也就是在一个轴上拥有多个索引级别 Series的层次化索引 DataFrame的层次化索引 重排分级顺序 根据层次索引级别汇总统计 使用DataFrame的列 阅读全文
posted @ 2018-11-14 19:58 进击中的青年 阅读(846) 评论(0) 推荐(0) 编辑
 

2018年11月13日

摘要: 五数概括法 通俗的说就是最小,第一四分位,第二四分位,第三四分位,最大数 箱形图 箱形图是基于五数概括法的数据的一个图形汇总。 箱形图的说明: (1)边界分别为第一四分位数和第三四分位数 (2)在箱体上中位数即第二四分数处画垂线 (3)利用四分位数间距IQR = Q3 Q1,找到界限,超出即为异常值 阅读全文
posted @ 2018-11-13 19:07 进击中的青年 阅读(4973) 评论(0) 推荐(0) 编辑
 

2018年11月10日

摘要: 由于公司的业务需要,需要爬取很多的国外网站图片,然后兄弟我一路正则杀过去,总共匹配到658张链接,心里美滋滋开始写下载的代码。然后就有了这次坑的记录。 首先这是我查到的链接数量 然后爬虫跑完后,美滋滋准备去看图片的时候,发现了 然后兄弟瞬间傻眼,卧槽?难道有反扒?继续测试,加了状态看看 兄弟开了10 阅读全文
posted @ 2018-11-10 13:33 进击中的青年 阅读(1347) 评论(0) 推荐(0) 编辑
 

2018年11月9日

摘要: 分布形态 今天接到老板的需求,需要爬取50多个国外的时尚图片,最近没时间搞了,就先学这吧,等我做了这个需求继续学 一个重要的数值度量被称为 偏度 。 z 分数 z 分数被称为标准化数值 z 分数 = 平均数的离差 / s代表样本标准差 切比雪夫定理 能使我们指出与平均数的距离在某个特定个数的标准差之 阅读全文
posted @ 2018-11-09 18:15 进击中的青年 阅读(1499) 评论(0) 推荐(0) 编辑
 

2018年11月7日

摘要: 变异程度的度量(离散程度的度量) 交货时间的变异性造成按时完成生产任务的不确定性 极差 极差=最大值 最小值 最简单的变异程度的度量 但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响 四分位数间距 能够克服极端值的影响,因为四分位数是中间的50%数据的极差. 方差 是用所有数据对变异程度 阅读全文
posted @ 2018-11-07 18:31 进击中的青年 阅读(4582) 评论(0) 推荐(0) 编辑
 
摘要: 汇总的函数 方法 |说明 | count |非NA的值数量 describe| 针对Series和DataFrame列计算汇总统计 min、max |计算最小值和最大值 argmin、argmax |计算能够获取到最小值和最大值的索引位置 idxmin、indxmax |计算能够获取到最小值和最大值 阅读全文
posted @ 2018-11-07 14:41 进击中的青年 阅读(2222) 评论(0) 推荐(0) 编辑
 

2018年11月6日

摘要: 插入排序 思想:类似于抽扑克牌,共有8张扑克牌,手里默认有一张,桌面上有7张,我们每次从桌面上抽一张和手里的牌进行比较,如果比手里的牌大,则直接放到手里的牌的后面,如果比手里的牌小,则放到手里的牌的前面,保证你放的每一次都会产生一个有序区。当牌完的时候,这8张牌也就排好了顺序。这就是插入排序 时间复 阅读全文
posted @ 2018-11-06 18:16 进击中的青年 阅读(151) 评论(0) 推荐(0) 编辑
 
摘要: 数值方法 样本统计量:数据来自样本,计算的度量 总体参数:数据来自总体,计算的度量 点估计量: 样本统计量被称为是相应总体参数的点估计量 位置的度量 平均数 最重要的变量:平均数(mean) 如果数据来自某个样本,则样本平均数为 。 公式为: 如果数据来自某个总体,则平均数用希腊字母μ表示。 公式为 阅读全文
posted @ 2018-11-06 13:11 进击中的青年 阅读(10859) 评论(0) 推荐(0) 编辑
 

2018年11月5日

摘要: 选择排序 思想是在一个列表中每次循环一遍,拿到最小值,接着再从剩下的无序区中继续拿最小值,如此循环,直到结束。 时间复杂度为O(n^2) 正宗的选择排序 python def select_sort(li): for i in range(len(li) 1): 需要选择n 1趟,最后一次不需要再找 阅读全文
posted @ 2018-11-05 23:15 进击中的青年 阅读(134) 评论(0) 推荐(0) 编辑
 
摘要: 排序 冒泡排序(Bubble Sort)时间复杂度为O(n^2) 列表每两个相邻的数,如果前面比后面大,则交换这两个数 一趟排序完成后,则无序区减少一个数,有序区增加一个数。 结果如下: 冒泡排序有个可以改良的地方,如果冒泡排序中一趟没有发生变化,则说明列表已经有序,可以直接结束算法 例如: li 阅读全文
posted @ 2018-11-05 21:53 进击中的青年 阅读(134) 评论(0) 推荐(0) 编辑