随笔档案「2019年2月」 - wangzhonghan

kaggle教程--4--缺失值处理

摘要：1 Python将缺失值定义为nan，意思是not a number 2 查看所有列中，每个列有几个空值 missing_val_count_by_column = (home_data.isnull().sum()) print(missing_val_count_by_column) print 阅读全文

posted @ 2019-02-27 15:58 wangzhonghan 阅读(380) 评论(0) 推荐(0)

kaggle教程--3--随机森林

摘要：随机森林核心代码： 1 首先读入excel数据 2 用y存储标签列 3 用X存储所需的特征列 4 train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1) 下面是随机森林部分 from sklearn.ensemb 阅读全文

posted @ 2019-02-27 11:25 wangzhonghan 阅读(176) 评论(0) 推荐(0)

kaggle教程--python基础

摘要：循环和列表推导式（Loops and List Comprehensions）例1：求列表的平方 squares = [n**2 for n in range(10)]squares[0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 例2：求列表中字母少于6的单词 short 阅读全文

posted @ 2019-02-27 10:57 wangzhonghan 阅读(181) 评论(0) 推荐(0)

kaggle教程--2--模型评估

摘要：1 平均绝对误差(Mean Absolute Error)(MAE) from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_model.predict(X)mean_absolute_err 阅读全文

posted @ 2019-02-26 15:10 wangzhonghan 阅读(434) 评论(0) 推荐(0)

kaggle教程--1--建模

摘要：1 This step of capturing patterns from data is called fitting or training the model. The data used to fit the model is called the training data. 1 从数据阅读全文

posted @ 2019-02-25 14:08 wangzhonghan 阅读(171) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---心得总结

摘要：分析特征 1 用图形显示loc_x, loc_y，得出其是球场上坐标 2 将loc_x, loc_y转化为极坐标 3 将minutes_remaining and seconds_remaining这两个属性合并 4 通过nona.action_type.unique()命令，查看action_ty 阅读全文

posted @ 2019-02-25 10:28 wangzhonghan 阅读(329) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---不理解的代码

摘要：https://www.kaggle.com/dixhom/data-analysis-for-beginners/notebookKobe_Bryant_Shot_Selection.py#这一段画图的代码不太理解import matplotlib.cm as cm plt.figure(figs 阅读全文

posted @ 2019-02-22 11:03 wangzhonghan 阅读(192) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---1

摘要：data = pd.read_csv('data.csv')print(data.info()) #显示多少行多少列每列的数据类型 set(data['shot_type'].tolist()) #显示这一列有哪几种数据 data['shot_type'].value_counts()#显示这一阅读全文

posted @ 2019-02-21 15:37 wangzhonghan 阅读(390) 评论(0) 推荐(0)

第5章挖掘建模

摘要：5.1 分类与预测分类属于有监督学习分类算法过程： 1 训练样本集建立模型 2 用测试集评估模型准确率，如果可以接受，再用该模型对未知标号的待测样本集进行预测常用分类与预测算法回归分析，决策树，人工神经网络，贝叶斯网络，支持向量机回归分析：通过建立模型来研究变量之间相互关系的有效工具常用阅读全文

posted @ 2019-02-18 15:09 wangzhonghan 阅读(254) 评论(0) 推荐(0)

数据预处理

摘要：数据预处理：数据清洗，数据集成，数据变换，数据规约数据清洗 1 缺失值处理：删除记录，数据插补，不处理数据插补：拉格朗日插值法(P63 4-1_lagrange_newton_interp.py)，牛顿插值法，回归方法，临近插补法，均值插补法等 2 异常值处理：删除记录，视为缺失值，平均值修正，阅读全文

posted @ 2019-02-13 14:46 wangzhonghan 阅读(255) 评论(0) 推荐(0)

数据探索--数据特征分析

摘要：分布分析 1 定量数据的分布分析方法：频率分布表，频率分布直方图，茎叶图(P38例子 3-1_abnormal_check.py) 2 定性分类数据分析方法：饼图，条形图对比分析 1 绝对数比较 2 相对数比较统计量分析 1 集中趋势度量：均值中位数众数 2 离中趋势度量：极差标准差变异阅读全文

posted @ 2019-02-12 15:10 wangzhonghan 阅读(188) 评论(0) 推荐(0)

代码分析

摘要：3-1_abnormal_check.py 读入数据，指定索引列，画箱线图，检查数据异常值 3-2_statistics_analyze.py 统计量分析，极差，变异系数，四分位数间距，过滤异常数据 3-3_dish_pareto.py 贡献度分析，画帕累托图 3-4_correlation_ana 阅读全文

posted @ 2019-02-11 14:56 wangzhonghan 阅读(186) 评论(0) 推荐(0)

数据探索--数据质量分析

摘要：数据质量分析的任务：检查原始数据中的脏数据（缺失值，异常值，不一致的值，重复数据及含有特殊符号（如#,$,*）的数据） 1 缺失值：缺失值包括：记录的缺失，记录中某个字段信息的缺失缺失值处理方法：删除缺失值的记录，对可能值插补，不处理 2 异常值：异常值包括：录入错误，不合常理的数据异常值处阅读全文

posted @ 2019-02-11 13:38 wangzhonghan 阅读(159) 评论(0) 推荐(0)

02 2019 档案