随笔分类 -  python学习总结

摘要:使用pip freeze 导出所有的安装包,如果有虚拟环境则可以 pip freeze > requirements.txt 生成requirements.txt时使用 会将环境下所有的安装包都进行生成,再进行安装的时候会全部安装很多没有的包。耗时耗力其实是不可取的。 使用pipreqs,这个工具的 阅读全文
posted @ 2020-07-17 11:25 beyondChan 阅读(1084) 评论(0) 推荐(0) 编辑
摘要:排序 缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象s:任意的Pandas Series对象 同时我们需要做如下的引入: import pandas as pdimport numpy as np 导入数据 pd.read_csv(filenam 阅读全文
posted @ 2019-08-22 15:43 beyondChan 阅读(307) 评论(0) 推荐(0) 编辑
摘要:1、apply、applymap、map 对数据进行处理的时候,使用循环往往会大大降低代码的执行效率,但是通过pandas中封装好的函数,则可以极大提升执行效率; DataFrame.apply(self, func, axis=0, broadcast=None, raw=False, reduc 阅读全文
posted @ 2019-08-20 13:18 beyondChan 阅读(905) 评论(0) 推荐(0) 编辑
摘要:1、 lambda 在Python中,lambda函数的函数体有且仅有一条语句,即返回值的表达式语句,它比def简单许多。格式如下: 参数列表是可以选择的,如果有多个参数,就用逗号将这些参数隔开。函数返回值的表达式语句不能含有循环、分支、return语句或yield语句,但是允许使用条件表达式。la 阅读全文
posted @ 2019-06-19 23:11 beyondChan 阅读(649) 评论(0) 推荐(0) 编辑
摘要:单层索引index中,我们可以轻松通过df.loc[index]来获取某一行数据,多重索引是怎么样来实现的呢,下面进行介绍。 1、行多层索引 1 import pandas as pd 2 3 df = pd.DataFrame({'class':['A','A','A','B','B','B',' 阅读全文
posted @ 2019-05-26 23:18 beyondChan 阅读(38612) 评论(0) 推荐(0) 编辑
摘要:在实际分析中,经常遇到连续值需要离散化,或者离散值需要哑元化的问题,下面将分别举例说明。 1、连续指标离散化 可以根据自己的需求划分不同的区间,然后使用pandas中cut()、qcut()函数来完成连续变量离散化操作。 2、离散指标哑元化 分类变量哑元化是指将分类变量转换成“哑变量矩阵”(dumm 阅读全文
posted @ 2019-05-26 23:05 beyondChan 阅读(4616) 评论(0) 推荐(0) 编辑
摘要:集合是一种组合型的数据类型,分为可变的set和不可变的frozenset。 1、可变集合set 集合set是一种无序的、唯一的的元素集,与数学中集合的概念类似,可对其进行交、并、差、补等逻辑运算。不支持索引、切片等序列操作,但仍支持成员关系运算符in-not in、推导式等操作。在特定的场合中可以体 阅读全文
posted @ 2019-05-26 21:14 beyondChan 阅读(1091) 评论(0) 推荐(0) 编辑
摘要:对pandas中的DataFrame进行条件筛选,即筛选出符合条件的数据条;这里经常会遇到以下几种情况,下面举例说明: (1)找出df中A列值为100的所有数据 这里也可以是小于(<)、大于(>)、小于等于(<=)、大于等于(>=)、不等于(!=)等情况。 (2)找出df中A列值为100、200、3 阅读全文
posted @ 2019-05-14 10:57 beyondChan 阅读(89204) 评论(0) 推荐(4) 编辑
摘要:很多情况下,大家可能会遇到相同情况,就是现在有一些数据需要保存在某个文件里面,但是后续会不断更新添加新的数据,例如在爬虫的时候,一页一页爬取数据的时候,当然可以将所有页数据先合并到一起,再保存起来,但是也可以通过下文这种方式,输出一页的数据就保存一次,好像有点麻烦哈,但是如果是其他情况的话,可能就会 阅读全文
posted @ 2019-04-26 20:14 beyondChan 阅读(59141) 评论(0) 推荐(5) 编辑