随笔分类 - pandas数据可视化
摘要:import pandas as pd from sqlalchemy import create_engine from urllib import parse import uuid import numpy as np import time def write_data_mysql(db_c
阅读全文
摘要:df["id"]=df["id"].round(2) id列只保留两位小数 单独列还可以dtype=np.int64指定,多个列用dtype={"id":np.int64,"name":str} df_y = pd.DataFrame(np.random.choice(2, batch_size),
阅读全文
摘要:Pandas调整列的顺序1、先删除列然后新增列到指定位置:df_id = df.iddf = df.drop('id',axis=1)df.insert(0,'id',df_id)2、直接指定列的顺序 order = ['date', 'time', 'open', 'high', 'low', '
阅读全文
摘要:# coding=utf-8 import pandas as pd import numpy as np import uuid from hashlib import sha256 # batch_size of each time write rows to id_sha256.csv bat
阅读全文
摘要:您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ? 我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。 如何生成斐波那契數列 斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个
阅读全文
摘要:https://pyzh.readthedocs.io/en/latest/the-python-yield-keyword-explained.html 3. (译)Python关键字yield的解释(stackoverflow) 译者: hit9 原文: http://stackoverflow
阅读全文
摘要:1.先说下常规思路: 写追加模式,第一次写入头header,第二次开始:header =None 2.后来想了下,还是不够灵敏:id列不够随意,就用生成器来yield,不断批量batch_size 内存生成就返回,避免Memory Error: d分两步: 第一步: 唯一id列:10w,sha256
阅读全文
摘要:a=np.random.choice(10,(3,4)) b=np.random.choice((100,500),(3,4)) df1=pd.DataFrame(a,columns=["x1","x2","x3","x4"],index=["a","b","c"]) df2=pd.DataFram
阅读全文
摘要:numpy中的random模块包含了很多方法可以用来产生随机数,这篇文章将对random中的一些常用方法做一个总结。 1、numpy.random.rand(d0, d1, ..., dn) 作用:产生一个给定形状的数组(其实应该是ndarray对象或者是一个单值),数组中的值服从[0, 1)之间的
阅读全文
摘要:from numpy import random random.seed(1001) array=np.random.normal(0,1,(3,4)) # <class 'numpy.ndarray'> print(array) # [[-1.08644637 - 0.89606513 - 0.3
阅读全文
摘要:隐式定位:df.loc 获取前三行,第id,x0,x1列 获取索引0,3行,以及"x0"到 "x10" 之间所有列 显示定位:df.iloc 获取第一行第三行,索引1和索引3列(索引row,col都是0开始): 通过索引获取索引0到索引2的行,索引1到索引3的列:,左开右闭原则:
阅读全文
摘要:这么大数据量,小的内存,还一定要用python/pandas的话可以考虑使用迭代器,在读取csv时指定参数data_iter = pd.read_csv(file_path, iterator=True),然后指定df = data_iter.get_chunk(n)将指定的n行数据加载到内存进行处
阅读全文
摘要:header=[collumn1,collumn2,.........] # usecols 读取某一列或者某几列: import numpy as npdf4=pd.read_csv("./100rowsX15cols_host.csv",usecols=["id","x0"])print(pd.
阅读全文
摘要:import pandas as pddata = {'Country':['Belgium', 'India', 'Brazil'], 'Capital':['Brussels', 'New Delhi', 'Brasilia'], 'Population':[11190846, 13031710
阅读全文
摘要:df.lookup() df.query():查询符合某个条件语句的 and or == != < > <= >= ###添加一列的值等于df其中两列的加和 df[colname]=Series ###add row :df.loc[rowname]==series ###分组求和 df.group
阅读全文
摘要:官网地址:https://openpyxl.readthedocs.io/en/stable/charts/line.html#id1 openpyxl+pandas # coding=utf-8 import pandas as pd import time from openpyxl impor
阅读全文
摘要:python主流绘图工具:matplotlib ,seaborn,pandas ,openpyxl ,xslwriter openpyxl :首先说下这个官网的demo,看的有点懵,没有具体说明多个图在一个excel引用不通ws Rererence 只是简单的一个deepcopy 用的一点懵逼,反正
阅读全文
摘要:import pandas as pd"""pandas doc:df.dtypes 查看数据每column 数据类型 id int64x0 float64df.reindex 查看多少行多少列的数据结构 [569 rows x 21 columns]>df.reindex_axis 查看数据行列带
阅读全文
摘要:1. read_csv read_csv方法定义: pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, sque
阅读全文