随笔档案「2020年8月」 - 大脸猫12581

8-Pandas扩展之Pandas提升性能的方法（eval()、query()）

摘要：使用Pandas得到阿布分布功能进行运算是，经常需要创建临时对象，这样会占用很大的内存和使用较长的计算时间。pandas为了解决性能问题，引入了eval()和query()函数，他们都依赖Numexpr包，运算过程中不需要费力地配置中间数组。一、使用Pandas.eval()实现高性能运算 1、p 阅读全文

posted @ 2020-08-23 10:32 大脸猫12581 阅读(1602) 评论(1) 推荐(0)

8-Pandas扩展之数据透视表

摘要：一、什么是数据透视表？数据透视表（pivot table）是一种在电子表格程序和其他数据分析软件中常用的数据汇总工具。数据透视表是一种交互式的表，可进行如求和与计算等操作。可以动态的改变版面布置，会立即按照新的布置重新计算数据。在数据与探索和数据整理时比较常用。二、数据透视表的创建方法一：阅读全文

posted @ 2020-08-22 12:27 大脸猫12581 阅读(364) 评论(0) 推荐(0)

8-Pandas扩展之分类数据处理（分类数据的概念、创建、常用操作）

摘要：一、分类数据的概念 1、什么是分类数据分类数据（Category Data）是指Pandas数据类型为分类类型的数据分类数据是由固定的且数量有限的变量组成，通常是字符串。例如：性别：男、女血型：A型、B型、C型国家：中国、美国、德国分类数据可以设置逻辑顺序，如：高 > 中 > 低 >>> 阅读全文

posted @ 2020-08-20 11:42 大脸猫12581 阅读(1765) 评论(0) 推荐(0)

7-Pandas的基本绘图函数之自定义图标样式

摘要：一、绘制子图参数subplots 方法一：设置参数subplots = True即可自动创建子图，可通过参数layout来设置子图布局 df.plot(subplots=True,layout=(1,2),figsize=(12,4)) 方法二：使用Matplotlib的方法，即plt.subbp 阅读全文

posted @ 2020-08-19 12:15 大脸猫12581 阅读(645) 评论(0) 推荐(0)

使用Pandas读取Excel、csv、mysql等文件存入到MySQL

摘要：数据处理步骤： 1、Pandas读取数据（如：excel、csv等） 2、对数据做过滤、统计分析 3、Pandas将数据存储到MySQL，用于Web页面的页面显示，或是对后序进一步的SQL分析（处理后的数据）步骤一：准备数据 import pandas as pd df = pd.read_ex 阅读全文

posted @ 2020-08-18 12:51 大脸猫12581 阅读(1616) 评论(0) 推荐(0)

7-Pandas的基本绘图函数（常用参数表、图形类型、样式参数设置表、条形图、直方图、箱线图、散点图、气泡图、六边箱图、饼图）

摘要：一、基于Matplotlib的Pandas绘图方法 Pandas绘制图形相较于Matplotlib来说更为简洁，基础函数为df.plot(x,y) 例： >>>df.plot('time','Money') 二、基本数据图形类型通过kind可以设置图形的类型，df.plot()默认绘制折线图，d 阅读全文

posted @ 2020-08-16 19:46 大脸猫12581 阅读(4829) 评论(0) 推荐(0)

7-Matplotlib简介

摘要：一、图形的层次二、Matplotlib常用工具箱 Matplotlib工具箱说明 plt.title('title') 添加子图标题 plt.legend(['In','pt']) 添加图例 plt.xlabel('x') plt.ylabel('y') 添加x/y轴标签 plt.subtitl 阅读全文

posted @ 2020-08-16 16:56 大脸猫12581 阅读(176) 评论(0) 推荐(0)

6-Pandas时序数据处理之重采样与频率转换（升降采样、resample()、OHLC、groupby()重采样）

摘要：重采样（resampling）指的是将时间序列从一个频率转换到另一个频率的过程，其中：高频转为低频成为降采样（下采样）低频转为高频成为升采样（上采样） 1、使用resample()方法进行重采样例：现有一个以年月日为索引的时间序列ts，将其重采样为年月的频率，并计算均值 >>> ts = pd 阅读全文

posted @ 2020-08-15 11:54 大脸猫12581 阅读(3882) 评论(0) 推荐(0)

6-时序数据处理之日期（Period、PeriodIndex、asfreq、财政年度）及算数运算（to_timestamp()、to_period()）

摘要：一、时期 1、时期的创建时期（Period）表示的是时间区间，如数日、数月、数季、数年等。时期的创建需要一个字符或整数以及一个freq参数。注意：其中freq参数可以参考日期的基础频率表，详见另一篇博文【Pandas时序数据处理（日期范围pd.date_range()、频率(基础频率表)及移动( 阅读全文

posted @ 2020-08-15 10:08 大脸猫12581 阅读(1876) 评论(0) 推荐(0)

1-数据可视化基础概述

摘要：一、数据可视化根据目标的不同，数据可视化可以分为探索性分析和解释性分析：探索性分析：探索、理解数据，并找出事先不确定、但值得关注或分享的信息；解释性分析：向受众解释确定的问题，并有针对的进行交流和展示。二、为什么用数据可视化 1、大数据的4V特征 Volume：数据量大 Veolcity:速阅读全文

posted @ 2020-08-12 16:53 大脸猫12581 阅读(981) 评论(0) 推荐(0)

6-Pandas时间序列处理之时区处理（UTC查看、获取、时区意识型TimeStamp对象、本地化与转换、计算）

摘要：通常选择使用协调世界时（UTC，又称世界统一时间、世界标准时间、国际协调时间）来处理时间序列。时区是以UTC偏移量的形式表示的。在Python中，时区信息来自第三方库pytz，Pandas包装了pytz功能。时区名可以在文档中找到，也可以用交互的方式查看。关于pytz模块的信息，可参考【pyt 阅读全文

posted @ 2020-08-11 19:15 大脸猫12581 阅读(3414) 评论(0) 推荐(0)

6-Pandas时序数据处理（日期范围pd.date_range()、频率(基础频率表)及移动(shift()、rollforward()、rollback())）

摘要：一、生成日期范围的时序数据 pd.date_range()可用于生成指定长度的日期索引，默认产生按天计算的时间点（即日期范围）。其参数可以是：起始结束日期或者是仅有一个起始或结束日期，加上一个时间段参数以下三种方法结果一致： pd.date_range('20200801','20200810 阅读全文

posted @ 2020-08-09 18:00 大脸猫12581 阅读(4471) 评论(0) 推荐(0)

6-Pandas时间序列处理的基础（时序数据类型、筛选、子集提取、重复时间索引操作）

摘要：一、Pandas中时间序列的类型 Pandas中最为基础的时间序列类型就是以时间戳（通过以Python字符串或datetime对象表示）为索引的Series； >>> import pandas as pd >>> import numpy as np >>> dates = ['2020-8-1' 阅读全文

posted @ 2020-08-09 16:43 大脸猫12581 阅读(1228) 评论(0) 推荐(0)

6-Python中的日期与时间数据（介绍时序数据、datetime模块介绍、字符串与时间互换）

摘要：一、什么是时间序列？时间序列（Time Series）是一种重要的结构化数据形式，在多个时间点观察或测量到的任何事物都可以形成一段时间序列，可分为以下两种：定期的时间序列：数据根据某种规律定期出现（例如：每10秒、每1分）不定期的时间序列：数据之间并没有固定的时间单位或是单位之间的偏移量二、阅读全文

posted @ 2020-08-08 16:47 大脸猫12581 阅读(690) 评论(0) 推荐(0)

5-Pandas数据聚合（GroupBy.agg()）

摘要：数据聚合除了GroupBy.mean()的聚合方法外，另一种直观的方法是直接接在GroupBy对象之后；例： >>> import pandas as pd >>> df = pd.read_excel('./input/class.xlsx') >>> df class sex score_ma 阅读全文

posted @ 2020-08-07 12:10 大脸猫12581 阅读(836) 评论(0) 推荐(0)

5-Pandas数据分组的函数应用（df.apply()、df.agg()和df.transform()、df.applymap()）

摘要：将自己定义的或其他库的函数应用于Pandas对象，有以下3种方法： apply()：逐行或逐列应用该函数 agg()和transform()：聚合和转换 applymap()：逐元素应用函数一、apply() 其中：设置axis = 1参数，可以逐行进行操作；默认axis=0，即逐列进行操作；阅读全文

posted @ 2020-08-07 11:12 大脸猫12581 阅读(3243) 评论(0) 推荐(1)

5-Pandas数组分组的高级方法（使用字典、函数、层次化索引级别）

摘要：数据分组的高级方法有3种：通过字典进行分组通过函数进行分组根据层次化索引级别进行分组一、根据字典进行分组若希望按照特征类别进行分组，可创建一个映射字典 >>> df = pd.read_excel('./input/data1.xlsx') >>> df A_male B_female C 阅读全文

posted @ 2020-08-05 22:56 大脸猫12581 阅读(680) 评论(0) 推荐(0)

5-pandas数组分组的基本方法（分组大小与排序、迭代、指定组或列）

摘要：数据分组的基本方法有3种：分组大小和分组排序对分组进行迭代选择指定组或指定的列一、分组大小和分组排序可通过GroupBy对象的size()方法，知道每个分组的样本数； >>> df.groupby(['class']).size() class A 3 B 4 C 2 dtype: int 阅读全文

posted @ 2020-08-05 22:19 大脸猫12581 阅读(1700) 评论(0) 推荐(0)

5-Pandas数据分组与聚合（df.Groupby()）

摘要：GroupBy技术是对于数据进行分组计算并将各组计算结果合并的一项技术，包括以下3个过程：拆分（Spliting）：即将数据进行分组应用（Applying）：对每组应用函数进行计算合并（Combining）：将计算结果进行数据聚合使用GroupBy()可以沿着任意轴进行分组，并且将分组依据的阅读全文

posted @ 2020-08-05 20:31 大脸猫12581 阅读(3867) 评论(0) 推荐(0)

4-Pandas数据预处理之数据转换（文本数据规整）

摘要：说明：本片博文接上篇博文【Pandas数据预处理之数据转换（哑变量编码pd.get_dummies()）】以及上上篇博文【 Pandas数据预处理之数据转换（df.map()、df.replace()）】 Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定，一般语法格式为：series 阅读全文

posted @ 2020-08-01 21:10 大脸猫12581 阅读(1060) 评论(1) 推荐(0)

4-Pandas数据预处理之数据转换（哑变量编码pd.get_dummies()）

摘要：说明：本片博文接上篇博文【 Pandas数据预处理之数据转换（df.map()、df.replace()）】二、哑变量编码 1、什么叫做哑变量？将类别型特征转化“哑变量矩阵”或是“指标矩阵”，让类别特征转换成数值特征的过程。相当与标签化和OneHOt编码，具体可参考另一篇博文【数据预处理理论5. 阅读全文

posted @ 2020-08-01 18:40 大脸猫12581 阅读(5272) 评论(0) 推荐(1)

4-Pandas数据预处理之数据转换（df.map()、df.replace()）

摘要：在数据分析中，根据需求，有时候需要将一些数据进行转换，而在Pandas中，实现数据转换的常用方法有：利用函数或是映射可以将自己定义的或者是其他包提供的函数用在Pandas对象上实现批量修改。 applymap和map实例方法在本节中，使用调查的某公司的员工信息为例： numeber_proje 阅读全文

posted @ 2020-08-01 18:01 大脸猫12581 阅读(8495) 评论(0) 推荐(2)

一只爱学习的咩咩咩

许多内容由jupyter notebook改为博客不方便，后期会进行整理

08 2020 档案

公告