pandas数据可视化 - 随笔分类 - 不带R的墨菲特

造数据pandas -sqlalchemy

摘要：import pandas as pd from sqlalchemy import create_engine from urllib import parse import uuid import numpy as np import time def write_data_mysql(db_c 阅读全文

posted @ 2022-05-31 20:16 不带R的墨菲特阅读(192) 评论(0) 推荐(0)

pandas 对某一列指定小数位数保留

摘要：df["id"]=df["id"].round(2) id列只保留两位小数单独列还可以dtype=np.int64指定，多个列用dtype={"id":np.int64,"name":str} df_y = pd.DataFrame(np.random.choice(2, batch_size), 阅读全文

posted @ 2020-04-16 10:01 不带R的墨菲特阅读(11920) 评论(0) 推荐(0)

pands 调整columns顺序

摘要：Pandas调整列的顺序1、先删除列然后新增列到指定位置：df_id = df.iddf = df.drop('id',axis=1)df.insert(0,'id',df_id)2、直接指定列的顺序 order = ['date', 'time', 'open', 'high', 'low', ' 阅读全文

posted @ 2020-04-16 09:52 不带R的墨菲特阅读(1255) 评论(0) 推荐(0)

pandas 生成数据大数据

摘要：# coding=utf-8 import pandas as pd import numpy as np import uuid from hashlib import sha256 # batch_size of each time write rows to id_sha256.csv bat 阅读全文

posted @ 2020-03-12 16:20 不带R的墨菲特阅读(744) 评论(0) 推荐(0)

yield解析你要知道的源自IBM

摘要：您可能听说过，带有 yield 的函数在 Python 中被称之为 generator（生成器），何谓 generator ？我们先抛开 generator，以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个阅读全文

posted @ 2020-03-11 12:12 不带R的墨菲特阅读(238) 评论(0) 推荐(0)

stackoverflow yield 帖子

摘要：https://pyzh.readthedocs.io/en/latest/the-python-yield-keyword-explained.html 3. (译)Python关键字yield的解释(stackoverflow) 译者: hit9 原文: http://stackoverflow 阅读全文

posted @ 2020-03-11 11:21 不带R的墨菲特阅读(352) 评论(0) 推荐(0)

pandas 生成器，生成大数据

摘要：1.先说下常规思路：写追加模式，第一次写入头header,第二次开始：header =None 2.后来想了下，还是不够灵敏：id列不够随意，就用生成器来yield，不断批量batch_size 内存生成就返回，避免Memory Error: d分两步：第一步：唯一id列：10w，sha256 阅读全文

posted @ 2020-03-10 22:25 不带R的墨菲特阅读(1085) 评论(0) 推荐(0)

pd.contact,dataframe 拼接

摘要：a=np.random.choice(10,(3,4)) b=np.random.choice((100,500),(3,4)) df1=pd.DataFrame(a,columns=["x1","x2","x3","x4"],index=["a","b","c"]) df2=pd.DataFram 阅读全文

posted @ 2020-03-10 20:30 不带R的墨菲特阅读(2200) 评论(0) 推荐(0)

numpy 随机

摘要：numpy中的random模块包含了很多方法可以用来产生随机数，这篇文章将对random中的一些常用方法做一个总结。 1、numpy.random.rand(d0, d1, ..., dn) 作用：产生一个给定形状的数组（其实应该是ndarray对象或者是一个单值），数组中的值服从[0, 1)之间的阅读全文

posted @ 2020-03-10 20:10 不带R的墨菲特阅读(294) 评论(0) 推荐(0)

numpy 随机种子

摘要：from numpy import random random.seed(1001) array=np.random.normal(0,1,(3,4)) # <class 'numpy.ndarray'> print(array) # [[-1.08644637 - 0.89606513 - 0.3 阅读全文

posted @ 2020-03-10 19:40 不带R的墨菲特阅读(1067) 评论(0) 推荐(0)

pandas loc和iloc

摘要：隐式定位：df.loc 获取前三行，第id,x0,x1列获取索引0，3行，以及"x0"到 "x10" 之间所有列显示定位：df.iloc 获取第一行第三行，索引1和索引3列（索引row,col都是0开始）：通过索引获取索引0到索引2的行，索引1到索引3的列：，左开右闭原则：阅读全文

posted @ 2020-03-10 18:57 不带R的墨菲特阅读(1015) 评论(0) 推荐(0)

pandas chunsize 以及chunk使用

摘要：这么大数据量，小的内存，还一定要用python/pandas的话可以考虑使用迭代器，在读取csv时指定参数data_iter = pd.read_csv(file_path, iterator=True),然后指定df = data_iter.get_chunk(n)将指定的n行数据加载到内存进行处阅读全文

posted @ 2020-03-10 18:35 不带R的墨菲特阅读(2336) 评论(1) 推荐(0)

pandas read_csv

摘要：header=[collumn1,collumn2,.........] # usecols 读取某一列或者某几列： import numpy as npdf4=pd.read_csv("./100rowsX15cols_host.csv",usecols=["id","x0"])print(pd. 阅读全文

posted @ 2020-03-10 17:55 不带R的墨菲特阅读(212) 评论(0) 推荐(0)

pandas series和pd.Dataframe区别

摘要：import pandas as pddata = {'Country':['Belgium', 'India', 'Brazil'], 'Capital':['Brussels', 'New Delhi', 'Brasilia'], 'Population':[11190846, 13031710 阅读全文

posted @ 2020-03-09 22:47 不带R的墨菲特阅读(658) 评论(0) 推荐(0)

pandas数据清洗

摘要：df.lookup() df.query():查询符合某个条件语句的 and or == != < > <= >= ###添加一列的值等于df其中两列的加和 df[colname]=Series ###add row :df.loc[rowname]==series ###分组求和 df.group 阅读全文

posted @ 2020-01-15 15:47 不带R的墨菲特阅读(466) 评论(0) 推荐(0)

pandas 数据可视化之折线图

摘要：官网地址：https://openpyxl.readthedocs.io/en/stable/charts/line.html#id1 openpyxl+pandas # coding=utf-8 import pandas as pd import time from openpyxl impor 阅读全文

posted @ 2020-01-12 17:22 不带R的墨菲特阅读(2136) 评论(1) 推荐(0)

pandas 进行excel绘图

摘要：python主流绘图工具：matplotlib ，seaborn,pandas ，openpyxl ,xslwriter openpyxl :首先说下这个官网的demo，看的有点懵，没有具体说明多个图在一个excel引用不通ws Rererence 只是简单的一个deepcopy 用的一点懵逼，反正阅读全文

posted @ 2020-01-02 10:43 不带R的墨菲特阅读(2986) 评论(0) 推荐(0)

pandas read excel or csv

摘要：import pandas as pd"""pandas doc:df.dtypes 查看数据每column 数据类型 id int64x0 float64df.reindex 查看多少行多少列的数据结构 [569 rows x 21 columns]>df.reindex_axis 查看数据行列带阅读全文

posted @ 2019-10-11 14:16 不带R的墨菲特阅读(247) 评论(0) 推荐(0)

pandas help

摘要：1. read_csv read_csv方法定义： pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, sque 阅读全文

posted @ 2019-06-01 17:07 不带R的墨菲特阅读(585) 评论(0) 推荐(0)

不带R的墨菲特

交流群796245415

随笔分类 - pandas数据可视化

公告