python3数据分析与挖掘 - 随笔分类 - 大脸猫12581

时间序列ARIMA模型

摘要：时间序列ARIMA模型 1、数据的平稳性与差分法让均值和方差不发生明显的变化（让数据变平稳），用差分法 2、ARIMA模型差分自回归平均移动模型求解回归的经典算法：最大似然估计、最小二乘法在具体运用时，需要指定三个参数，即（p，d，q）；其中：p表示自回归的阶数， d表示做几阶差分（一般做阅读全文

posted @ 2020-01-05 18:10 大脸猫12581 阅读(754) 评论(0) 推荐(0) 编辑

第7章模型评估

摘要：分类算法评估矩阵（1）分类准确度（2）对数损失函数log_loss() （3）混淆矩阵confusion_matrix() （4）AUC图一般在排序（rank）时用AUC图比准确率、召回率、f1值要好（5）分类报告classification_report() import numpy as 阅读全文

posted @ 2019-09-01 16:58 大脸猫12581 阅读(366) 评论(0) 推荐(0) 编辑

第6章挖掘建模

摘要：学习：通过接收到的数据，归纳提取相同与不同机器学习：让计算机以数据为基础，进行归纳与总结模型：数据解释现象的系统。 6:2:2 · 训练集：用来训练与拟合模型 · 测试集：模型泛化能力的考量。（泛化：对数据的预测能力） · 验证集：当通过训练集训练出多个模型后，使用验证集数据纠偏或比较预测当数阅读全文

posted @ 2019-08-28 14:54 大脸猫12581 阅读(965) 评论(0) 推荐(0) 编辑

第5章预处理理论

摘要：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。 5.1、数据清洗 5.1.1 数据样本抽样 · 样本要具有代表性 · 样本比例要平衡以及样本不均衡时如何处理 · 考虑全量数据 5.1.2异常值（空值）处理 · 识别异常值和重复值 Pandas：isnull()/duplicate 阅读全文

posted @ 2019-08-28 13:41 大脸猫12581 阅读(798) 评论(0) 推荐(0) 编辑

第4章探索性数据分析（多因子与复合分析）

摘要：4.1、多因子 4.1.1 假设检验与方差检验假设检验适用于（数据样本较小时）方差检验适用于（数据样本较大时） import numpy as np import scipy.stats as ss #生成一20个数的标准正态分布 norm_dist = ss.norm.rvs(size=20) 阅读全文

posted @ 2019-08-27 23:02 大脸猫12581 阅读(1765) 评论(0) 推荐(0) 编辑

第3章探索性数据分析（单因子&对比）与可视化

摘要：1、理论铺垫 Dataframe和Series均适用 ~集中趋势：均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode() ~离中趋势：标准差std()、方差var() import scipy.stats as ss 正态分布：ss.norm 、卡方分布阅读全文

posted @ 2019-08-27 20:49 大脸猫12581 阅读(703) 评论(0) 推荐(0) 编辑

第2章数据存储

摘要：数据学习网站：Kaggle 、天池、各个领域的统计数据（国家统计局……） https://www.jianshu.com/p/0fa4f84d48ee  世界卫生组织： https://www.who.int/research/en/ Healthdata 阅读全文

posted @ 2019-08-27 20:41 大脸猫12581 阅读(168) 评论(0) 推荐(0) 编辑

第1章数据获取手段

摘要：a) 数据仓库（DW）数据库 VS 仓库数据库面向业务存储，仓库面向主题存储数据库针对应用（OLTP），仓库针对分析（OLAP）数据库组织规范，仓库可能有冗余，相对变化大，数据量大 b) 检测与抓取 c) 填写、埋点、日志 d) 计算阅读全文

posted @ 2019-08-27 20:40 大脸猫12581 阅读(263) 评论(0) 推荐(0) 编辑

一只爱学习的咩咩咩

许多内容由jupyter notebook改为博客不方便，后期会进行整理

随笔分类 - python3数据分析与挖掘

公告