随笔分类 -  Python

上一页 1 ··· 3 4 5 6 7 8 下一页
摘要:一、read_html函数 Pandas 包中的 read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据。 但只适合于爬取 table 表格型数据,例如: ## 通过F12查看HTML结构 ## http://www.air-level.com/air/guangzhou/ <tabl 阅读全文
posted @ 2021-05-25 18:14 Hider1214 阅读(7657) 评论(0) 推荐(0) 编辑
摘要:一、安装 emoji 库属于第三方库,在使用之前,需要提前进行安装和导入。 安装 pip install emoji # -- successfully pip install emoji -i https://pypi.tuna.tsinghua.edu.cn/simple/ 导入 import 阅读全文
posted @ 2021-05-23 19:41 Hider1214 阅读(1400) 评论(0) 推荐(0) 编辑
摘要:经常在 .py 脚本文件中看到这么一句: if __name__ == '__main__': ,那么这句声明到底代表什么?又发挥着什么作用呢? 一、介绍 Python 程序不同于其他语言,文件自上而下执行。 作用 添加这段代码的作用是让该 Python 文件既可以独立运行,也可以当做模块导入到其他 阅读全文
posted @ 2021-05-20 10:44 Hider1214 阅读(362) 评论(0) 推荐(0) 编辑
摘要:一、大数定理 大数定理:随着样本容量 n 不断增加,样本平均数将越来越接近于总体平均数(期望),我们把总体的平均数称为期望。(均值与期望是不同的) 基于大数定理的存在,日常分析过程中一般都会使用样本的均值来估计总体的均值。 样本均值只是接近总体均值,不代表等于,还是存在一定的偏差。 利用 Pytho 阅读全文
posted @ 2021-05-09 15:08 Hider1214 阅读(1009) 评论(0) 推荐(0) 编辑
摘要:一、盖帽法介绍 数据分析中,异常值比较难于界定,一般数据异常值包括几种情况: 单值异常:结合实际业务进行判断(例如:年龄age ≥ 120岁) 相关性异常:一般收入随年龄的增长呈现类线性增长趋势,如果异常情况,需进行剔除 突发异常:激增异常,添加哑变量(有待理解?)区分(异常值 vs 强影响点) 异 阅读全文
posted @ 2021-05-05 23:58 Hider1214 阅读(2548) 评论(0) 推荐(0) 编辑
摘要:一、定义 参考 pd.quantile() 函数实现分位数统计。 二、函数 使用语法为: np.percentile(a, q, axis=None, keepdims:bool) 参数解释: a -- array数组 用于计算分位数的对象 可以是多维数组 q -- 0-100之间的浮点数(floa 阅读全文
posted @ 2021-05-05 23:37 Hider1214 阅读(6762) 评论(0) 推荐(0) 编辑
摘要:一、p分位数概念 原则上p是可以取0-1之间的任意值,四分位数是p分位数中较为有名的。 所谓四分位数:即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 第1四分位数 (Q1):又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字 第2四分位数 (Q2):又称 阅读全文
posted @ 2021-05-05 22:08 Hider1214 阅读(9085) 评论(0) 推荐(0) 编辑
摘要:一、背景 使用 Python 的机器学习模块 sklearn 进行模型训练时,如果训练集保持不变,可将模型训练的模型结果保存为 .model 文件,以供预测时使用,避免每次运行时都要重新训练模型。 joblib 可实现保存模型,并将保存的模型取出用于预测。 二、实操 # 导入模块 import li 阅读全文
posted @ 2021-05-05 16:05 Hider1214 阅读(4718) 评论(0) 推荐(0) 编辑
摘要:一、random模块中的sample函数 定义和用法 sample(L, n) 从序列L中随机抽取n个元素,并将n个元素以list形式返回。 此方法不会更改原始顺序。 实例 import random mylist = ['apple', 'banana', 'cherry'] print(rand 阅读全文
posted @ 2021-05-05 01:04 Hider1214 阅读(15286) 评论(0) 推荐(0) 编辑
摘要:一、旧税率表与新税率表比较 以前起征点是3500,2018年10月1日起起征点正式修改为5000。 下面我们用 Python 来分别计算新旧个人所得税分别为多少? 二、旧个人所得税 import sys import bisect # 方法一:手动计算 def old_tax(salary): if 阅读全文
posted @ 2021-05-04 19:29 Hider1214 阅读(247) 评论(0) 推荐(0) 编辑
摘要:一、背景 执行某个 .py 代码文件的时候,需要传入不同的参数。 例如:根据当天的日期通过 sh 脚本传参,便可利用 sys.argv 方便实现。 二、解释 sys.argv[] 是一个从程序外部获取参数的桥梁,即非 .py 文件本身的参数。 外部所获取的参数可以是多个,因此获得的是一个列表(lis 阅读全文
posted @ 2021-05-02 23:22 Hider1214 阅读(444) 评论(0) 推荐(0) 编辑
摘要:一、简介 bisect 是 Python 中的标准库(Standard Module),对有序列表提供支持,使得在插入新数据之后仍然保持有序。长列表的排序十分耗时,这个模块提供了良好的方法(bisect.insort)。模块使用基本的二分(bisection)算法。 在 Python 中可以利用 b 阅读全文
posted @ 2021-04-28 00:31 Hider1214 阅读(706) 评论(0) 推荐(0) 编辑
摘要:一、背景 工作中,常遇到有多个格式类似的文件需要合并为一个。 例如:文件按多地市(广东21个地市)存放,最终需要合并为广东省数据文件。 二、实现 # -*- coding: utf-8 -*- """ Created on Tue Apr 27 23:37:32 2021 合并一个文件夹下的多个tx 阅读全文
posted @ 2021-04-27 23:43 Hider1214 阅读(1385) 评论(0) 推荐(0) 编辑
摘要:Python 中,单星号(*)和双星号(**)除了作为“乘”和“幂”的数值运算符外,还在列表、元组、字典的操作中有着重要作用。 一、列表(list)、元组(tuple)前面加星号(*) 列表前面加星号作用是将列表解开(unpacke)成多个独立的参数,传入函数。 def add(a, b): ret 阅读全文
posted @ 2021-04-26 23:31 Hider1214 阅读(2743) 评论(4) 推荐(0) 编辑
摘要:一、join函数 join 是 python 中字符串自带的一个方法,返回一个字符串。使用语法为: sep.join(可迭代对象) --》 str # sep 分隔符 可以为空 将一个包含多个字符串的可迭代对象(字符串、元组、列表),转为用分隔符sep连接的字符串。 列表 列表必须为非嵌套列表,列表 阅读全文
posted @ 2021-04-26 23:22 Hider1214 阅读(2111) 评论(0) 推荐(0) 编辑
摘要:一、reverse函数 reverse() 函数是列表的一个内置方法,字典、字符串、元组都没有这个内置方法。 用于列表中数据的反转,使用语法为: list1 = ["a", "b", "c", "d", "e"] list1.reverse() print(list1) # ['e', 'd', ' 阅读全文
posted @ 2021-04-26 18:26 Hider1214 阅读(889) 评论(0) 推荐(0) 编辑
摘要:一、字符串前加"f" 1. % 可以使用 % 格式化字符串。 c = (250, 250) # 使用 % 格式化 s1 = "坐标为:%s" % c # TypeError: not all arguments converted during string formatting s1 = "坐标为 阅读全文
posted @ 2021-04-26 16:58 Hider1214 阅读(832) 评论(0) 推荐(0) 编辑
摘要:一、背景 当需要统计不同周期的变化情况时,需要使用数据偏移,在 Python 中使用 shift 函数实现。 # 一阶差分 diff_num = num - num.shift(1) 二、实现 1.创建测试表 import pandas as pd dic = {'id':[1,2,2,3,3,3] 阅读全文
posted @ 2021-04-25 23:18 Hider1214 阅读(4106) 评论(0) 推荐(1) 编辑
摘要:一、Python函数 在 Python 中使用 def + 函数名 + 参数 的方式定义函数,即: # 函数定义 def function_name(parameters): # 形参 print("hello" + parameters) # 函数调用 function_name("Hider") 阅读全文
posted @ 2021-04-24 00:18 Hider1214 阅读(295) 评论(0) 推荐(0) 编辑
摘要:一、背景 实现某个目录下所有文件(包含子目录中的文件)的列出,可以使用 Python 实现。 二、实现 方法一 # 修改工作目录 import os os.chdir(r'C:\Users\Hider\Desktop') # 定义函数 def list_all_files(rootdir): imp 阅读全文
posted @ 2021-04-23 00:09 Hider1214 阅读(5343) 评论(2) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 下一页
点击右上角即可分享
微信分享提示