05 2021 档案

摘要:一、read_html函数 Pandas 包中的 read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据。 但只适合于爬取 table 表格型数据,例如: ## 通过F12查看HTML结构 ## http://www.air-level.com/air/guangzhou/ <tabl 阅读全文
posted @ 2021-05-25 18:14 Hider1214 阅读(7633) 评论(0) 推荐(0) 编辑
摘要:一、安装 emoji 库属于第三方库,在使用之前,需要提前进行安装和导入。 安装 pip install emoji # -- successfully pip install emoji -i https://pypi.tuna.tsinghua.edu.cn/simple/ 导入 import 阅读全文
posted @ 2021-05-23 19:41 Hider1214 阅读(1385) 评论(0) 推荐(0) 编辑
摘要:经常在 .py 脚本文件中看到这么一句: if __name__ == '__main__': ,那么这句声明到底代表什么?又发挥着什么作用呢? 一、介绍 Python 程序不同于其他语言,文件自上而下执行。 作用 添加这段代码的作用是让该 Python 文件既可以独立运行,也可以当做模块导入到其他 阅读全文
posted @ 2021-05-20 10:44 Hider1214 阅读(359) 评论(0) 推荐(0) 编辑
摘要:一、大数定理 大数定理:随着样本容量 n 不断增加,样本平均数将越来越接近于总体平均数(期望),我们把总体的平均数称为期望。(均值与期望是不同的) 基于大数定理的存在,日常分析过程中一般都会使用样本的均值来估计总体的均值。 样本均值只是接近总体均值,不代表等于,还是存在一定的偏差。 利用 Pytho 阅读全文
posted @ 2021-05-09 15:08 Hider1214 阅读(1004) 评论(0) 推荐(0) 编辑
摘要:一、盖帽法介绍 数据分析中,异常值比较难于界定,一般数据异常值包括几种情况: 单值异常:结合实际业务进行判断(例如:年龄age ≥ 120岁) 相关性异常:一般收入随年龄的增长呈现类线性增长趋势,如果异常情况,需进行剔除 突发异常:激增异常,添加哑变量(有待理解?)区分(异常值 vs 强影响点) 异 阅读全文
posted @ 2021-05-05 23:58 Hider1214 阅读(2544) 评论(0) 推荐(0) 编辑
摘要:一、定义 参考 pd.quantile() 函数实现分位数统计。 二、函数 使用语法为: np.percentile(a, q, axis=None, keepdims:bool) 参数解释: a -- array数组 用于计算分位数的对象 可以是多维数组 q -- 0-100之间的浮点数(floa 阅读全文
posted @ 2021-05-05 23:37 Hider1214 阅读(6743) 评论(0) 推荐(0) 编辑
摘要:一、p分位数概念 原则上p是可以取0-1之间的任意值,四分位数是p分位数中较为有名的。 所谓四分位数:即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 第1四分位数 (Q1):又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字 第2四分位数 (Q2):又称 阅读全文
posted @ 2021-05-05 22:08 Hider1214 阅读(9035) 评论(0) 推荐(0) 编辑
摘要:一、背景 使用 Python 的机器学习模块 sklearn 进行模型训练时,如果训练集保持不变,可将模型训练的模型结果保存为 .model 文件,以供预测时使用,避免每次运行时都要重新训练模型。 joblib 可实现保存模型,并将保存的模型取出用于预测。 二、实操 # 导入模块 import li 阅读全文
posted @ 2021-05-05 16:05 Hider1214 阅读(4708) 评论(0) 推荐(0) 编辑
摘要:一、random模块中的sample函数 定义和用法 sample(L, n) 从序列L中随机抽取n个元素,并将n个元素以list形式返回。 此方法不会更改原始顺序。 实例 import random mylist = ['apple', 'banana', 'cherry'] print(rand 阅读全文
posted @ 2021-05-05 01:04 Hider1214 阅读(15226) 评论(0) 推荐(0) 编辑
摘要:一、旧税率表与新税率表比较 以前起征点是3500,2018年10月1日起起征点正式修改为5000。 下面我们用 Python 来分别计算新旧个人所得税分别为多少? 二、旧个人所得税 import sys import bisect # 方法一:手动计算 def old_tax(salary): if 阅读全文
posted @ 2021-05-04 19:29 Hider1214 阅读(245) 评论(0) 推荐(0) 编辑
摘要:一、背景 执行某个 .py 代码文件的时候,需要传入不同的参数。 例如:根据当天的日期通过 sh 脚本传参,便可利用 sys.argv 方便实现。 二、解释 sys.argv[] 是一个从程序外部获取参数的桥梁,即非 .py 文件本身的参数。 外部所获取的参数可以是多个,因此获得的是一个列表(lis 阅读全文
posted @ 2021-05-02 23:22 Hider1214 阅读(442) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示