随笔分类 -  datawhale数据分析

数据分析 part5 模型搭建和评估
摘要:经历了先前的探索性数据分析、数据清洗与数据重构之后,就可以准备进行模型的搭建和评估了 模型搭建前的工作可以概括为特征工程,主要包括缺失值处理、重复值处理、分类变量编码 一、模型搭建 监督学习:已有的数据集中既有特征(feature)又有标签(label),通过训练,让机器/程序可找到特征和标签之间的 阅读全文
posted @ 2021-12-15 20:34 宝joM 阅读(396) 评论(0) 推荐(0)
数据分析 part3 数据重构
摘要:对数据进行了清洗之后,就可以对数据进行重构了 一、数据合并 第一种方式,pandas的方法 # concat 拼接两个df a=pd.concat([df1,df2],axis=0,join='outer',ignore_index=True] # axis默认0,垂直方向,增加行;为1,水平方向, 阅读全文
posted @ 2021-12-15 14:38 宝joM 阅读(165) 评论(0) 推荐(0)
数据分析 part2 数据清洗与特征处理
摘要:通过对数据的初步观察,可能会发现数据存在某些问题,如缺失值、重复值、离群值等,因此,需要对数据进行清洗、加工,以便于之后的数据分析 一、缺失值 首先想了解缺失值的大致情况,因此可以采用如下函数 # 快速了解各列 df.info() # 返回列名、非空数值个数、数据类型 # 查看某一列 df['col 阅读全文
posted @ 2021-12-14 22:21 宝joM 阅读(250) 评论(0) 推荐(0)
数据分析 Part1 初步分析
摘要:第一章 数据载入与初步观察 第一节 载入数据: 1.1 导入库 # 导入相关的库,绘图库有多种,视需而定,且pandas自身有绘图的函数 import numpy as np import pandas as pd import matplotlib.plplot as plt %matplotli 阅读全文
posted @ 2021-12-14 18:51 宝joM