随笔分类 - 数据分析
摘要:参考: https://blog.csdn.net/Snoopy_Yuan/article/details/75808006
阅读全文
摘要:1、时间序列基本规则法-周期因子法 提取时间序列的周期性特征进行预测,参考:时间序列规则法快速入门 计算周期因子factors 计算base 预测=base*factors 观察序列,当序列存在周期性时,可以用周期因子法做为baseline 在天池竞赛-资金流入流出预测-挑战Baseline-天池大
阅读全文
摘要:重要性: model.featureImportances pyspark 模型简单实例: https://blog.csdn.net/Katherine_hsr/article/details/80988994 概率: predictions.select("probability", "labe
阅读全文
摘要:Handle Imbalanced Classes In Random Forest Preliminaries # Load libraries from sklearn.ensemble import RandomForestClassifier import numpy as np from
阅读全文
摘要:概述 os.chdir() 方法用于改变当前工作目录到指定的路径。 语法 chdir()方法语法格式如下: 参数 path -- 要切换到的新路径。 path -- 要切换到的新路径。 返回值 如果允许访问返回 True , 否则返回False。 实例 以下实例演示了 chdir() 方法的使用:
阅读全文
摘要:我们在用excel处理数据时,常常需要按不同的类别分别汇总数据。例如下图中需要求出每个业务员的总销售金额等。 通常情况下我们的数据量很大,而且需要较快的统计出来结果,所以我们要用一定的技巧才能计算出来。 其实,在excel中,有多种可以进行分类求和的方法,再大的数据量也能快速搞定。 我们在用exce
阅读全文
摘要:在处理数据的时候,很多时候会遇到批量替换的情况,如果一个一个去修改效率过低,也容易出错。replace()是很好的方法。 1.基本结构: df.replace(to_replace, value) 前面是需要替换的值,后面是替换后的值。 这样会搜索整个DataFrame, 并将所有符合条件的元素全部
阅读全文
摘要:Spark实现行列转换pivot和unpivot 背景 做过数据清洗ETL工作的都知道,行列转换是一个常见的数据整理需求。 首先明确一下啥叫行列转换,因为这个叫法也不是很统一,有的地方叫转置,有的地方叫透视,不一而足。我们就以下图为例,定义如下: 从左边这种变成右边这种,叫透视(pivot) 反之叫
阅读全文
摘要:Jupyter Notebook 的快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift-Ent
阅读全文
摘要:转载请注明:宁哥的小站 » Spark与Pandas中DataFrame对比(详细)
阅读全文
摘要:pandas主要的两个数据结构是:series(相当于一行或一列数据结构和DataFrame(相当于多行多列的一个表格数据机构)。 原文:https://www.cnblogs.com/gangandimami/p/8983323.html DataFrame.drop(labels=None, a
阅读全文
摘要:5种常用的相关分析方法 转载:http://bluewhale.cc/2016-06-30/analysis-of-correlation.html 相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关
阅读全文
摘要:在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。 图源:http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 但是,部分依
阅读全文
摘要:特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 在数据挖掘工作中,通常处理的是一个包含大量特征且含义未知的数据集,并基于该数据集挖掘到有用的特征。那么
阅读全文
摘要:1. excel求两列差集(查找A列中与B列不同的部分) 示例: 行号 A列 B列 C列结果(A-B) 1 1 3 1 2 2 4 2 3 3 4 4 5 5 5 方法一: 在c列(结果列)第一行输入:=IF(COUNTIF($B:$B,A2)=0,A2,"") 【向下复制公式。鼠标放在C1单元格右
阅读全文
摘要:参考: https://zhuanlan.zhihu.com/p/37363942 https://zhuanlan.zhihu.com/p/34757009 https://zhuanlan.zhihu.com/p/31426458 【 Faster RCNN 非常详尽】 对于理解RNN/LSTM
阅读全文
摘要:1、直接执行.sql脚本 2、Hive语句执行 假如有如下hive sql:hive_cmd = 'hive -e "select count(*) from hbase.routermac_sort_10;"'一般在python中按照如下方式执行该hive sql:os.system(hive_c
阅读全文
摘要:转自 : https://blog.csdn.net/Leonis_v/article/details/51832916 pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键(可以是函数、数组或DataFrame列名)拆分p
阅读全文
摘要:特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 根据特征选择的形式又可以将特征选择方法分为3种: 我们使用sklearn中的feature_selection库来进行特征选择。 【特征工程】特征选择及mRMR算法解析机器学
阅读全文
摘要:np.isnan(X).any() X=X.fillna(0) 一定要将填充结果再次赋值
阅读全文