02 2019 档案

kaggle教程--4--缺失值处理
摘要:1 Python将缺失值定义为nan,意思是not a number 2 查看所有列中,每个列有几个空值 missing_val_count_by_column = (home_data.isnull().sum()) print(missing_val_count_by_column) print 阅读全文

posted @ 2019-02-27 15:58 wangzhonghan 阅读(380) 评论(0) 推荐(0)

kaggle教程--3--随机森林
摘要:随机森林核心代码: 1 首先读入excel数据 2 用y存储标签列 3 用X存储所需的特征列 4 train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1) 下面是随机森林部分 from sklearn.ensemb 阅读全文

posted @ 2019-02-27 11:25 wangzhonghan 阅读(176) 评论(0) 推荐(0)

kaggle教程--python基础
摘要:循环和列表推导式(Loops and List Comprehensions) 例1:求列表的平方 squares = [n**2 for n in range(10)]squares[0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 例2:求列表中字母少于6的单词 short 阅读全文

posted @ 2019-02-27 10:57 wangzhonghan 阅读(181) 评论(0) 推荐(0)

kaggle教程--2--模型评估
摘要:1 平均绝对误差(Mean Absolute Error)(MAE) from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_model.predict(X)mean_absolute_err 阅读全文

posted @ 2019-02-26 15:10 wangzhonghan 阅读(434) 评论(0) 推荐(0)

kaggle教程--1--建模
摘要:1 This step of capturing patterns from data is called fitting or training the model. The data used to fit the model is called the training data. 1 从数据 阅读全文

posted @ 2019-02-25 14:08 wangzhonghan 阅读(171) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---心得总结
摘要:分析特征 1 用图形显示loc_x, loc_y,得出其是球场上坐标 2 将loc_x, loc_y转化为极坐标 3 将minutes_remaining and seconds_remaining这两个属性合并 4 通过nona.action_type.unique()命令,查看action_ty 阅读全文

posted @ 2019-02-25 10:28 wangzhonghan 阅读(329) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---不理解的代码
摘要:https://www.kaggle.com/dixhom/data-analysis-for-beginners/notebookKobe_Bryant_Shot_Selection.py#这一段画图的代码不太理解import matplotlib.cm as cm plt.figure(figs 阅读全文

posted @ 2019-02-22 11:03 wangzhonghan 阅读(192) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---1
摘要:data = pd.read_csv('data.csv')print(data.info()) #显示多少行 多少列 每列的数据类型 set(data['shot_type'].tolist()) #显示这一列有哪几种数据 data['shot_type'].value_counts()#显示这一 阅读全文

posted @ 2019-02-21 15:37 wangzhonghan 阅读(390) 评论(0) 推荐(0)

第5章 挖掘建模
摘要:5.1 分类与预测 分类属于有监督学习 分类算法过程: 1 训练样本集建立模型 2 用测试集评估模型准确率,如果可以接受,再用该模型对未知标号的待测样本集进行预测 常用分类与预测算法 回归分析,决策树,人工神经网络,贝叶斯网络,支持向量机 回归分析:通过建立模型来研究变量之间相互关系的有效工具 常用 阅读全文

posted @ 2019-02-18 15:09 wangzhonghan 阅读(254) 评论(0) 推荐(0)

数据预处理
摘要:数据预处理:数据清洗,数据集成,数据变换,数据规约 数据清洗 1 缺失值处理:删除记录,数据插补,不处理 数据插补:拉格朗日插值法(P63 4-1_lagrange_newton_interp.py),牛顿插值法,回归方法,临近插补法,均值插补法等 2 异常值处理:删除记录,视为缺失值,平均值修正, 阅读全文

posted @ 2019-02-13 14:46 wangzhonghan 阅读(255) 评论(0) 推荐(0)

数据探索--数据特征分析
摘要:分布分析 1 定量数据的分布分析方法:频率分布表,频率分布直方图,茎叶图(P38例子 3-1_abnormal_check.py) 2 定性分类数据分析方法:饼图,条形图 对比分析 1 绝对数比较 2 相对数比较 统计量分析 1 集中趋势度量:均值 中位数 众数 2 离中趋势度量:极差 标准差 变异 阅读全文

posted @ 2019-02-12 15:10 wangzhonghan 阅读(188) 评论(0) 推荐(0)

代码分析
摘要:3-1_abnormal_check.py 读入数据,指定索引列,画箱线图,检查数据异常值 3-2_statistics_analyze.py 统计量分析,极差,变异系数,四分位数间距,过滤异常数据 3-3_dish_pareto.py 贡献度分析,画帕累托图 3-4_correlation_ana 阅读全文

posted @ 2019-02-11 14:56 wangzhonghan 阅读(186) 评论(0) 推荐(0)

数据探索--数据质量分析
摘要:数据质量分析的任务:检查原始数据中的脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号(如#,$,*)的数据) 1 缺失值: 缺失值包括:记录的缺失,记录中某个字段信息的缺失 缺失值处理方法:删除缺失值的记录,对可能值插补,不处理 2 异常值: 异常值包括:录入错误,不合常理的数据 异常值处 阅读全文

posted @ 2019-02-11 13:38 wangzhonghan 阅读(159) 评论(0) 推荐(0)

导航