随笔分类 - python数据处理
摘要:1.创建DataFrame 注意:默认索引从0开始,也可以自行创建索引。 2.提取含有指定字符的行 含有缺失值不能直接搜索,需要处理 不含缺失值,直接切片 3.输出df所有列名 4.将成绩列score改为popularity 5.统计每种编程语言出现次数、占比 6.将空值用上下值平均值填充 7.提取
阅读全文
摘要:源数据没有重复数据,构造重复数据: 去除重复值: drop_duplicates方法去重默认会删掉完全重复的行(每个值都一样的行),如果要删除指定列重复的数据,可以通过指定subset参数来实现: unique = repeat.drop_duplicates(subset=['投放地区','流量级
阅读全文
摘要:当相同字段时(列名一致),此时的合并,一般为上下合并,所以用concat比较好 当不同字段时,上下合并没有意义,应该为左右合并,concat虽然也可以左右合并,但是没有merge好理解(类似集合中的交并补) 并且merge的左右连接、内外连接和sql的含义一致,所以merge比较合适。 h1 = p
阅读全文
摘要:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) 主要学习axis和join。 i
阅读全文
摘要:参考文章内容较多,一点一点写 https://mp.weixin.qq.com/s?__biz=MzU5Mjg2OTQ1MA%3D%3D&chksm=fe186225c96feb330e129a47ff979301f6dcdc042ce24fa7b23f61e21d6c13a30e25d00f469
阅读全文
摘要:一、折线图情况一:同一坐标轴import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'SimSun' #不加这句无法显示中文x = [5,7,11,17,19,25]#点的横坐标k1 = [0.8222,0.918,0.9344,0.
阅读全文
摘要:数据变换就是通过标准化、离散化与分层化让数据变得更加一致,将数据转换或统一成更适合机器训练或数据分析的形式。数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征哑编码等。 一、二值化: 特征二值化的核心在于设定一个阈值,将特征与该阈
阅读全文
摘要:1.背景 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数据不完整、数据矛盾、异常值等。这些因素不仅影响建模的执行过程,更有甚者在不知不觉间给出错误的建模结果,这就使得数据清洗显得尤为重要。但是数据清洗并不是数据预处理的全部内容,它只是第一步而已,接下来还有数据集成、数据
阅读全文
摘要:1.读取txt文件#方法一import numpy as np #numpy模块提供的数组,读写等操作速度比python自带的快很多,所以作为一个基础包导入data = np.genfromtxt('C:/machinelearning/face.txt', dtype=np.int32) #dty
阅读全文