随笔分类 -  Pandas

摘要:user_analysis 第一部分:数据类型处理¶ 数据加载¶ 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据¶ 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 阅读全文
posted @ 2023-02-07 15:53 ThankCAT 阅读(177) 评论(0) 推荐(0) 编辑
摘要:pandas方法 import pandas as pd pd.set_option('display.float_format',lambda x : '%.3f' % x) 禁用科学计数法,小数保留3位 阅读全文
posted @ 2023-02-07 10:56 ThankCAT 阅读(62) 评论(0) 推荐(0) 编辑
摘要:import pandas as pd import numpy as np from matplotlib import pyplot as plt """ 第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数 阅读全文
posted @ 2023-02-06 22:02 ThankCAT 阅读(45) 评论(0) 推荐(0) 编辑
摘要:import pandas as pd """ 需求 1.加载数据 2.查看数据的基本信息 3.指定数据截取,将如下字段的数据进行提取,其他数据舍弃 cand_nm: 候选人姓名 contbr_nm : 捐赠人姓名 contbr_st:捐赠人所在州 contbr_employer : 捐赠人所在公司 阅读全文
posted @ 2023-02-05 21:44 ThankCAT 阅读(16) 评论(0) 推荐(0) 编辑
摘要:from turtle import left import pandas as pd """ 需求: 1.导入文件,查看原始数据 2.将人口数据和各州简称数据进行合并 3.将合并的数据中重复的abbreviation列进行删除 4.查看存在缺失数据的列 5.找到有哪些state/region使得s 阅读全文
posted @ 2023-02-05 01:14 ThankCAT 阅读(48) 评论(0) 推荐(0) 编辑
摘要:背景介绍 本数据集包括了2015年至2017年我国36个主要一线城市、特区的一些年度数据,包括产值、人口、就业、教育、医疗、经济贸易、房地产投资等方面。 包含文件: 2015年国内主要城市年度数据.csv 2016年国内主要城市年度数据.csv 2017年国内主要城市年度数据.csv 数据特征 |数 阅读全文
posted @ 2023-02-03 16:55 ThankCAT 阅读(57) 评论(0) 推荐(0) 编辑
摘要:提出问题 影响乘客生还的因素很多,这里只对乘客的性别、年龄、乘客等级、这三个因素感兴趣, 看看这四个因素是否会影响乘客的生还率。 1.性别是否会影响生还率 2.年龄是否会影响生还率 3.乘客等级会否会影响乘客率 4.性别和舱位共同对生还率的影响 5.年纪和性别共同对生还率的影响 6.年纪和等级共同对 阅读全文
posted @ 2023-02-02 21:59 ThankCAT 阅读(164) 评论(0) 推荐(0) 编辑
摘要:import tushare as ts import pandas as pd # 下载茅台所有股票交易数据 # df = ts.get_k_data(code="600519",start="2000-01-01") # df.to_csv("./maotai") # 将本地储存读入到DF中 d 阅读全文
posted @ 2023-02-01 22:40 ThankCAT 阅读(94) 评论(0) 推荐(0) 编辑
摘要:随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。 sample() 函数的语法格式如下: DataFrame.sample(n=None, frac=None, rep 阅读全文
posted @ 2023-01-31 22:34 ThankCAT 阅读(187) 评论(0) 推荐(0) 编辑
摘要:当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。比如“Wednesday, June 6, 2020”可以写成“6/6/20”,或者写成“06-06-2020。 日期格式化符号 在对时间进行格式化 阅读全文
posted @ 2023-01-31 22:34 ThankCAT 阅读(300) 评论(0) 推荐(0) 编辑
摘要:顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。时间序列包含三种应用场景,分别是: 特定的时刻(timest 阅读全文
posted @ 2023-01-31 22:33 ThankCAT 阅读(49) 评论(0) 推荐(0) 编辑
摘要:groupby分组操作详解 在数据分析中,经常会遇到这样的情况:根据某一列(或多列)标签把数据划分为不同的组别,然后再对其进行数据分析。比如,某网站对注册用户的性别或者年龄等进行分组,从而研究出网站用户的画像(特点)。在 Pandas 中,要完成数据的分组操作,需要使用 groupby() 函数,它 阅读全文
posted @ 2023-01-29 22:21 ThankCAT 阅读(121) 评论(0) 推荐(0) 编辑
摘要:Pandas 提供的 merge() 函数能够进行高效的合并操作,这与 SQL 关系型数据库的 MERGE 用法非常相似。从字面意思上不难理解,merge 翻译为“合并”,指的是将两个 DataFrame 数据表按照指定的规则进行连接,最后拼接成一个新的 DataFrame 数据表。 merge() 阅读全文
posted @ 2023-01-29 22:21 ThankCAT 阅读(122) 评论(0) 推荐(0) 编辑
摘要:字符串离散化处理 import pandas as pd import numpy as np from matplotlib import pyplot as plt # 读取csv文件 file_path = "./IMDB-Movie-Data.csv" df = pd.read_csv(fi 阅读全文
posted @ 2023-01-29 22:20 ThankCAT 阅读(40) 评论(0) 推荐(0) 编辑
摘要:认识DataFrame结构 DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。其结构图示意图,如下所示: 表格中展示了某个销售团队个人信息和绩效评级( 阅读全文
posted @ 2023-01-28 21:52 ThankCAT 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。 Series 可以保存任何数据类型,比如整数、字符串、浮点数、Python 对象等,它的标签默认为整数, 阅读全文
posted @ 2023-01-28 21:20 ThankCAT 阅读(160) 评论(0) 推荐(0) 编辑

more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示