随笔分类 - python3数据分析与挖掘
该部分侧重于数据分析、建模与模型评估,是机器学习一整套流程。
摘要:时间序列ARIMA模型 1、数据的平稳性与差分法 让均值和方差不发生明显的变化(让数据变平稳),用差分法 2、ARIMA模型 差分自回归平均移动模型 求解回归的经典算法:最大似然估计、最小二乘法 在具体运用时,需要指定三个参数,即(p,d,q); 其中:p表示自回归的阶数, d表示做几阶差分(一般做
阅读全文
摘要:分类算法评估矩阵 (1)分类准确度 (2)对数损失函数log_loss() (3)混淆矩阵confusion_matrix() (4)AUC图 一般在排序(rank)时用AUC图比准确率、召回率、f1值要好 (5)分类报告classification_report() import numpy as
阅读全文
摘要:学习:通过接收到的数据,归纳提取相同与不同 机器学习:让计算机以数据为基础,进行归纳与总结 模型:数据解释现象的系统。 6:2:2 · 训练集:用来训练与拟合模型 · 测试集:模型泛化能力的考量。(泛化:对数据的预测能力) · 验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测 当数
阅读全文
摘要:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 5.1、数据清洗 5.1.1 数据样本抽样 · 样本要具有代表性 · 样本比例要平衡以及样本不均衡时如何处理 · 考虑全量数据 5.1.2异常值(空值)处理 · 识别异常值和重复值 Pandas:isnull()/duplicate
阅读全文
摘要:4.1、多因子 4.1.1 假设检验与方差检验 假设检验适用于(数据样本较小时) 方差检验适用于(数据样本较大时) import numpy as np import scipy.stats as ss #生成一20个数的标准正态分布 norm_dist = ss.norm.rvs(size=20)
阅读全文
摘要:1、理论铺垫 Dataframe和Series均适用 ~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode() ~离中趋势:标准差std()、方差var() import scipy.stats as ss 正态分布:ss.norm 、卡方分布
阅读全文
摘要:数据学习网站:Kaggle 、天池、各个领域的统计数据(国家统计局……) https://www.jianshu.com/p/0fa4f84d48ee <!--StartFragment --> 世界卫生组织 : https://www.who.int/research/en/ Healthdata
阅读全文
摘要:a) 数据仓库(DW) 数据库 VS 仓库 数据库面向业务存储,仓库面向主题存储 数据库针对应用(OLTP),仓库针对分析(OLAP) 数据库组织规范,仓库可能有冗余,相对变化大,数据量大 b) 检测与抓取 c) 填写、埋点、日志 d) 计算
阅读全文