随笔分类 -  python数据处理

摘要:1.创建DataFrame 注意:默认索引从0开始,也可以自行创建索引。 2.提取含有指定字符的行 含有缺失值不能直接搜索,需要处理 不含缺失值,直接切片 3.输出df所有列名 4.将成绩列score改为popularity 5.统计每种编程语言出现次数、占比 6.将空值用上下值平均值填充 7.提取 阅读全文
posted @ 2022-07-31 12:29 萧六弟 阅读(29) 评论(0) 推荐(0) 编辑
摘要:源数据没有重复数据,构造重复数据: 去除重复值: drop_duplicates方法去重默认会删掉完全重复的行(每个值都一样的行),如果要删除指定列重复的数据,可以通过指定subset参数来实现: unique = repeat.drop_duplicates(subset=['投放地区','流量级 阅读全文
posted @ 2022-07-28 20:13 萧六弟 阅读(631) 评论(0) 推荐(0) 编辑
摘要:当相同字段时(列名一致),此时的合并,一般为上下合并,所以用concat比较好 当不同字段时,上下合并没有意义,应该为左右合并,concat虽然也可以左右合并,但是没有merge好理解(类似集合中的交并补) 并且merge的左右连接、内外连接和sql的含义一致,所以merge比较合适。 h1 = p 阅读全文
posted @ 2022-07-28 19:24 萧六弟 阅读(269) 评论(0) 推荐(0) 编辑
摘要:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) 主要学习axis和join。 i 阅读全文
posted @ 2022-07-27 21:42 萧六弟 阅读(259) 评论(0) 推荐(0) 编辑
摘要:参考文章内容较多,一点一点写 https://mp.weixin.qq.com/s?__biz=MzU5Mjg2OTQ1MA%3D%3D&chksm=fe186225c96feb330e129a47ff979301f6dcdc042ce24fa7b23f61e21d6c13a30e25d00f469 阅读全文
posted @ 2022-07-27 20:08 萧六弟 阅读(45) 评论(0) 推荐(0) 编辑
摘要:一、折线图情况一:同一坐标轴import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'SimSun' #不加这句无法显示中文x = [5,7,11,17,19,25]#点的横坐标k1 = [0.8222,0.918,0.9344,0. 阅读全文
posted @ 2022-07-26 22:18 萧六弟 阅读(80) 评论(0) 推荐(0) 编辑
摘要:数据变换就是通过标准化、离散化与分层化让数据变得更加一致,将数据转换或统一成更适合机器训练或数据分析的形式。数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征哑编码等。 一、二值化: 特征二值化的核心在于设定一个阈值,将特征与该阈 阅读全文
posted @ 2022-07-22 19:43 萧六弟 阅读(1042) 评论(0) 推荐(0) 编辑
摘要:1.背景 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数据不完整、数据矛盾、异常值等。这些因素不仅影响建模的执行过程,更有甚者在不知不觉间给出错误的建模结果,这就使得数据清洗显得尤为重要。但是数据清洗并不是数据预处理的全部内容,它只是第一步而已,接下来还有数据集成、数据 阅读全文
posted @ 2022-07-21 15:35 萧六弟 阅读(427) 评论(0) 推荐(0) 编辑
摘要:1.读取txt文件#方法一import numpy as np #numpy模块提供的数组,读写等操作速度比python自带的快很多,所以作为一个基础包导入data = np.genfromtxt('C:/machinelearning/face.txt', dtype=np.int32) #dty 阅读全文
posted @ 2022-07-20 21:48 萧六弟 阅读(191) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示