Python - 随笔分类(第6页) - Hider1214

Python学习笔记：索引设置之set_index和reset_index

摘要：数据分析过程中，有时出于增强数据可读性或其他原因，需要对数据表的索引值进行设定。在 pandas 中，常用 set_index() 和 reset_index() 这两个方法进行索引设置。一、set_index方法 1.介绍 set_index() 方法将 DataFrame 中的列转化为行索引阅读全文

posted @ 2021-09-18 17:06 Hider1214 阅读(5334) 评论(0) 推荐(0) 编辑

Python学习笔记：按指定列顺序写入csv文件

摘要：pandas.DataFrame 默认列名按字典顺序，可通过添加 columns 字段实现指定顺序。 import pandas as pd import numpy as np import os os.chdir(r'C:\Users\111\Desktop') df_size = 10 df 阅读全文

posted @ 2021-09-18 11:31 Hider1214 阅读(2186) 评论(0) 推荐(0) 编辑

Python学习笔记：pandas筛选数据

摘要：pandas 拥有强大的数据清洗能力，可以极大的简化数据处理工作。一、数据加载及EDA import os os.chdir(r'C:\Users\111\Desktop') # 加载数据 import pandas as pd df = pd.read_excel("超市运营数据模板.xlsx" 阅读全文

posted @ 2021-09-17 15:05 Hider1214 阅读(972) 评论(0) 推荐(0) 编辑

Python学习笔记：pandas.Series.str.startswith、endswith判断开头、结尾

摘要：一、介绍 startswith 判断系列是否以指定字符开头 endswith 判断系列是否以指定字符结尾使用语法： Series.str.startswith(pat, na=nan) Series.str.endswith(pat, na=nan) 参数： pat -- 要搜索的字符串不接受正阅读全文

posted @ 2021-09-17 13:05 Hider1214 阅读(975) 评论(0) 推荐(0) 编辑

Python学习笔记：利用contains和isin方法筛选数据

摘要：一、str.contains方法 1.介绍 contains 方法用于判断指定系列是否包含指定字符串。类似于 SQL 中的 like 函数，实现模糊匹配。 str 将 Series 转换为类似于 String 的结构。返回布尔值系列或索引，具体取决于给定模式或正则表达式是否包含在系列或索引的字符串阅读全文

posted @ 2021-09-17 11:36 Hider1214 阅读(10958) 评论(0) 推荐(0) 编辑

Python学习笔记：pandas.series.between方法

摘要：一、介绍 between() 方法用于 Series 检查哪个值处在第一个、和第二个参数之间。使用语法： Series.between(left, right, inclusive=True) 参数： left : 定义左边界 right ：定义右边界 inclusive ：布尔值默认为：T 阅读全文

posted @ 2021-09-16 18:14 Hider1214 阅读(2417) 评论(0) 推荐(0) 编辑

Python学习笔记：pandas.Series.str.split分列

摘要：一、字符串分割split split() 方法通过指定分隔符对字符串进行切分，返回分割后的字符串列表。使用语法为： str.split(str=" ", maxsplit=string.count(str)) 参数： -- str 分隔符默认为所有的空字符包括空格、换行符、制表符等 -- ma 阅读全文

posted @ 2021-09-15 17:27 Hider1214 阅读(2415) 评论(0) 推荐(0) 编辑

Python学习笔记：Pandas数据类型转化

摘要：一、Pandas读取剪切板数据 import pandas as pd df = pd.read_clipboard() ''' 国家受欢迎度评分向往度 0 中国 10 10.0 10.0 1 美国 6 5.8 7.0 2 日本 2 1.2 7.0 3 德国 8 6.8 6.0 4 英国 7 阅读全文

posted @ 2021-09-15 17:11 Hider1214 阅读(1199) 评论(0) 推荐(0) 编辑

Python学习笔记：数据合并join、merge、concat、append、combine、combine_first等

摘要：一、对比总结简单总结，通过 merge 和 join 合并的数据后数据的列变多，通过 concat 合并后的数据行列都可以变多（axis=1)，而 combine_first 可以用一个数据填充另一个数据的缺失数据。函数说明 join 主要用于基于索引的横向合并拼接 merge 主要用于基于指阅读全文

posted @ 2021-09-15 14:34 Hider1214 阅读(5586) 评论(0) 推荐(0) 编辑

Python学习笔记：itertools迭代器

摘要：致力于将 Python 代码写得更加 Pythonic。一来更符合规范且容易阅读，二来一般 Pythonic 的代码在执行上也更有效率。一、itertools库介绍迭代器（生成器）在 Python 中是一种很常用、也很好用的数据结构，比起列表 list 来说，迭代器最大的优势就是延迟计算、按需阅读全文

posted @ 2021-09-14 11:33 Hider1214 阅读(190) 评论(0) 推荐(0) 编辑

Python学习笔记：pandas.read_csv分块读取大文件(chunksize、iterator=True)

摘要：一、背景日常数据分析工作中，难免碰到数据量特别大的情况，动不动就2、3千万行，如果直接读进 Python 内存中，且不说内存够不够，读取的时间和后续的处理操作都很费劲。 Pandas 的 read_csv 函数提供2个参数：chunksize、iterator ，可实现按行多次读取文件，避免内存不阅读全文

posted @ 2021-09-13 17:48 Hider1214 阅读(21526) 评论(7) 推荐(4) 编辑

Python学习笔记：os.stat().st_size、os.path.getsize()获取文件大小

摘要：一、os.stat().st_size os.stat(filePath) 返回读取指定文件的相关属性，然后利用 stat 模块进行处理。 import os os.stat('data_feather_ys.feather') # os.stat_result(st_mode=33206, st_ 阅读全文

posted @ 2021-09-13 11:45 Hider1214 阅读(4232) 评论(0) 推荐(0) 编辑

Python学习笔记：高效数据格式feather（鸿毛）

摘要：一、背景日常使用 Python 读取数据时一般都是 json、csv、txt、xlsx 等格式，或者直接从数据库读取。针对大数据量一般存储为 csv 格式，但文件占用空间比较大，保存和加载速度也较慢。而 feather 便是一种速度更快、更加轻量级（压缩后）的二进制保存格式。二、feathe 阅读全文

posted @ 2021-09-13 11:31 Hider1214 阅读(13631) 评论(0) 推荐(0) 编辑

Python学习笔记：数据清洗之缺失值填充fillna

摘要：在数据建模过程中，针对入模的数据需做数据清洗，特别针对缺失数据。缺失数据比较多的情况下，可以考虑直接删除；缺失数据较少的情况下，可对数据进行填充。此时，fillna() 则派上用场。语法为： fillna(self, value=None, method=None, axis=None, inp 阅读全文

posted @ 2021-09-05 22:37 Hider1214 阅读(3133) 评论(0) 推荐(0) 编辑

Python学习笔记：replace方法替换字符

摘要：一、字符串替换 replace() 方法用于替换字符串。语法为： string.replace(oldvalue, newvalue, count) oldvalue -- 待替换字符串 newvalue -- 替换字符串 count -- 指定次数默认所有 # 普通用法 txt = "I lik 阅读全文

posted @ 2021-09-05 21:11 Hider1214 阅读(3886) 评论(0) 推荐(0) 编辑

Python学习笔记：统计次数的5种方法

摘要：一、使用字典 dict 统计循环遍历出一个可迭代对象的元素，如果字典中没有该元素，那么就让该元素作为字典的键，并将该键赋值为1，如果存在则将该元素对应的值加1。 lists = ['a','a','b',1,2,3,1] count_dist = dict() for i in lists: if 阅读全文

posted @ 2021-09-04 23:05 Hider1214 阅读(1351) 评论(0) 推荐(0) 编辑

Python学习笔记：Pandas Apply函数加速技巧

摘要：一、前沿技术 Dask包数据量大、内存不足、复杂并行处理计算图、并行、扩展分布式节点、利用GPU计算类似 TensorFlow 对神经网络模型的处理 CUDF包 CUDF在GPU加速Pandas 缺点：GPU贵！二、原始Apply import pandas as pd import num 阅读全文

posted @ 2021-08-31 15:26 Hider1214 阅读(1744) 评论(0) 推荐(0) 编辑

Python学习笔记：Pandas查看数据显示不全设置

摘要：在 Jupyter Notebook 编码中，有时需要查看 DataFrame 中的数据，可默认只显示10行数据，中间以“省略号”代替。可在导入 pandas 模块时加入 pd.set_option 参数进行配置。设置行 import pandas as pd pd.set_option('di 阅读全文

posted @ 2021-08-17 17:49 Hider1214 阅读(1657) 评论(0) 推荐(0) 编辑

Python学习笔记：变异系数

摘要：一、解释变异系数（coefficient of variation）又称离散系数，是一个衡量数据离散程度的、没有量纲的统计量。其值（CV）为标准差与平均值之比。变异系数取值一般为：[0, +无穷) 二、实现 import numpy as np def coefficient_of_varia 阅读全文

posted @ 2021-08-05 18:04 Hider1214 阅读(2266) 评论(0) 推荐(0) 编辑

Python学习笔记：sklearn.externals.joblib导入报错cannot import name 'joblib'

摘要：之前跑完模型保存都是通过以下脚本保存。 # 保存模型 from sklearn.externals import joblib joblib.dump(model_lgb, r"E:\model.pkl") # 导出 # model_lgb = joblib.load(r"E:\model.pkl" 阅读全文

posted @ 2021-07-29 15:20 Hider1214 阅读(2589) 评论(0) 推荐(0) 编辑

Hider1214

随笔分类 - Python

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论