上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: ``` /*标题h1 h2 h3样式*/ #cnblogs_post_body { color: black; font: 0.875em/1.5em"微软雅黑", "PTSans", "Arial", sans-serif; font-size: 15px; } #cnblogs_post_body h1 { background: #d27ea2; border-radius: 6px 6px 阅读全文
posted @ 2019-11-13 20:45 太虚真人 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 项目一: 数据库索引: 索引设计规则: 1. App上方提示 2. 数据实时数据:事务 事务的四个属性:ACID原子性,一致性,隔离性,持久性 原子性(Atomicity):事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。 一致性(Consistency):事务应确保 阅读全文
posted @ 2019-11-13 20:40 太虚真人 阅读(286) 评论(0) 推荐(0) 编辑
摘要: df.sort_index() df.idxmax(0) 最大值的索引,参数有轴 df.cumsum() 累和 s.unique() 不重复的所有的值 s.nunique() 不重复的值得数量 s.drop_duplicates() 去重 df.groupby(["key1","key2"]).si 阅读全文
posted @ 2019-11-06 15:05 太虚真人 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 它们的区别在于应用的对象不同。 1、map() map() 是一个Series的函数,DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。 例子: 我们现在用map来对列data1改成保留小数点后三位: 你也可以用map把key1 阅读全文
posted @ 2019-11-06 11:43 太虚真人 阅读(1539) 评论(0) 推荐(0) 编辑
摘要: 本文翻译自文章: "Pandas Cheat Sheet Python for Data Science" ,同时添加了部分注解。 "pandas官方文档" "十分钟入门Pandas" 关键缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 s:任意 阅读全文
posted @ 2019-10-30 18:30 太虚真人 阅读(4013) 评论(0) 推荐(0) 编辑
摘要: 侧边栏 阅读全文
posted @ 2019-09-15 11:29 太虚真人 阅读(343) 评论(0) 推荐(0) 编辑
摘要: DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 阅读全文
posted @ 2019-09-10 16:24 太虚真人 阅读(1559) 评论(0) 推荐(0) 编辑
摘要: 12306 项目传送门: py12306 项目传送门 阅读全文
posted @ 2019-09-09 21:33 太虚真人 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 交叉表与透视表什么作用 分析两个离散值值间得相关性 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 使用crosstab(交叉表)实现上图 交叉表: 用于计算一列数 阅读全文
posted @ 2019-09-09 20:52 太虚真人 阅读(381) 评论(0) 推荐(0) 编辑
摘要: pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并axis=0为列索引,axis=1为行索引 pd.merge pd.merge(left, right, how='inner', on=None, left_on=None, ri 阅读全文
posted @ 2019-09-09 20:11 太虚真人 阅读(561) 评论(0) 推荐(0) 编辑
摘要: one hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。 把下图中左边的表格转化为使用右边形式进行表示: 要把类别变成可用于数值计算的值 加入非线性 距离信息得到很好的转换 距离相等 pandas.get_dummies(data, prefix=N 阅读全文
posted @ 2019-09-09 19:56 太虚真人 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具 扔掉一些信息,可以让模型更健壮,泛化能力更强 什么是数据的离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值 阅读全文
posted @ 2019-09-09 19:22 太虚真人 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 判断数据是否为NaN: 判断缺失值是否存在 处理方式: 存在缺失值nan,并且是np.nan: 1、删除缺失值:dropna(axis='rows') 注:不会修改原数据,需要接受返回值 2、替换缺失值:fillna(value, inplace=True) value:替换成的值 inplace: 阅读全文
posted @ 2019-09-09 18:44 太虚真人 阅读(342) 评论(0) 推荐(0) 编辑
摘要: pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。 CSV pandas.read_csv(filepath_or_buffer, sep =',' ) filepath_or_buffer:文件路径 usecols:指定读取的列名,列表形式 sep 分割字符 默 阅读全文
posted @ 2019-09-08 21:46 太虚真人 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 算术运算 加法—series对象.add(值) 减法—series对象.sub(值/对象) 逻辑运算符号、|、 & 1. 逻辑运算符号、|、 &—等价于sql中的where语句 等价于numpy的逻辑运算 返回的是布尔类型的对象(series/df) 2. 逻辑运算函数 df.query()—相当于 阅读全文
posted @ 2019-09-08 21:43 太虚真人 阅读(1759) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 12 下一页