python数据处理 - 随笔分类 - 萧六弟

小复习（1）

摘要：1.创建DataFrame 注意：默认索引从0开始，也可以自行创建索引。 2.提取含有指定字符的行含有缺失值不能直接搜索，需要处理不含缺失值，直接切片 3.输出df所有列名 4.将成绩列score改为popularity 5.统计每种编程语言出现次数、占比 6.将空值用上下值平均值填充 7.提取阅读全文

posted @ 2022-07-31 12:29 萧六弟阅读(29) 评论(0) 推荐(0) 编辑

数据清洗（2.4）：去重duplicates函数

摘要：源数据没有重复数据，构造重复数据：去除重复值： drop_duplicates方法去重默认会删掉完全重复的行（每个值都一样的行），如果要删除指定列重复的数据，可以通过指定subset参数来实现： unique = repeat.drop_duplicates(subset=['投放地区','流量级阅读全文

posted @ 2022-07-28 20:13 萧六弟阅读(631) 评论(0) 推荐(0) 编辑

数据清洗（2.3）：merge函数

摘要：当相同字段时（列名一致），此时的合并，一般为上下合并，所以用concat比较好当不同字段时，上下合并没有意义，应该为左右合并，concat虽然也可以左右合并，但是没有merge好理解（类似集合中的交并补）并且merge的左右连接、内外连接和sql的含义一致，所以merge比较合适。 h1 = p 阅读全文

posted @ 2022-07-28 19:24 萧六弟阅读(269) 评论(0) 推荐(0) 编辑

数据清洗（2.2）：concat函数

摘要：pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) 主要学习axis和join。 i 阅读全文

posted @ 2022-07-27 21:42 萧六弟阅读(259) 评论(0) 推荐(0) 编辑

数据的清洗（2.1）

摘要：参考文章内容较多，一点一点写 https://mp.weixin.qq.com/s?__biz=MzU5Mjg2OTQ1MA%3D%3D&chksm=fe186225c96feb330e129a47ff979301f6dcdc042ce24fa7b23f61e21d6c13a30e25d00f469 阅读全文

posted @ 2022-07-27 20:08 萧六弟阅读(45) 评论(0) 推荐(0) 编辑

可视化学习（一）

摘要：一、折线图情况一：同一坐标轴import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'SimSun' #不加这句无法显示中文x = [5,7,11,17,19,25]#点的横坐标k1 = [0.8222,0.918,0.9344,0. 阅读全文

posted @ 2022-07-26 22:18 萧六弟阅读(80) 评论(0) 推荐(0) 编辑

数据的变换（一）

摘要：数据变换就是通过标准化、离散化与分层化让数据变得更加一致，将数据转换或统一成更适合机器训练或数据分析的形式。数据变换即对数据进行规范化处理，以便于后续的信息挖掘。常见的数据变换包括：特征二值化、特征归一化、连续特征变化，定性特征哑编码等。一、二值化：特征二值化的核心在于设定一个阈值，将特征与该阈阅读全文

posted @ 2022-07-22 19:43 萧六弟阅读(1042) 评论(0) 推荐(0) 编辑

数据的清洗（一）

摘要：1.背景数据挖掘过程中，采集的原始数据里存在着各种不利于分析与建模工作的因素，比如数据不完整、数据矛盾、异常值等。这些因素不仅影响建模的执行过程，更有甚者在不知不觉间给出错误的建模结果，这就使得数据清洗显得尤为重要。但是数据清洗并不是数据预处理的全部内容，它只是第一步而已，接下来还有数据集成、数据阅读全文

posted @ 2022-07-21 15:35 萧六弟阅读(427) 评论(0) 推荐(0) 编辑

数据的读取

摘要：1.读取txt文件#方法一import numpy as np #numpy模块提供的数组，读写等操作速度比python自带的快很多，所以作为一个基础包导入data = np.genfromtxt('C:/machinelearning/face.txt', dtype=np.int32) #dty 阅读全文

posted @ 2022-07-20 21:48 萧六弟阅读(191) 评论(0) 推荐(0) 编辑

戴小帅的学习笔记

随笔分类 - python数据处理

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜