摘要: 之前使用逻辑回归算法得到的生还预测kaggle打分是0.75119分,emmm,可以说是比较差的一个分数了,下面进行调整。 1、判断拟合状态 由于过拟合和欠拟合两种情况下对于数据集的处理不同,所以首先需要判断现有模型是过拟合还是欠拟合。 百度百科欠拟合 百度百科过拟合 我们可以通过绘制学习曲线(le 阅读全文
posted @ 2019-01-05 11:43 没有神保佑的瓶子 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 玩了很久总算是又静下心来好好看书,经过一段时间的学习,打算稍微检验一下知识的掌握程度,所以去kaggle参加了久闻的泰坦尼克生还预测,以下是正文。 1、观察数据 拿到数据集后,先来了解数据的大致情况。 可以得知数据集有12列,891行,其中'Age'、'Cabin'、'Embarked'列存在缺失值 阅读全文
posted @ 2018-12-16 23:30 没有神保佑的瓶子 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 时间序列分析 一、 概念 时间序列(Time Series) 时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列(是均匀时间间隔上的观测值序列)。 时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 时间序列分析主要包括的内容有:趋势分析、序列分解、序列预测。 时间序列分解( 阅读全文
posted @ 2018-11-06 23:58 没有神保佑的瓶子 阅读(13336) 评论(0) 推荐(1) 编辑
摘要: 一、概念 关联(Association) 关联就是把两个或两个以上在意义上有密切联系的项组合在一起。 关联规则(AR,Assocaition Rules) 用于从大量数据中挖掘出有价值的数据项之间的相关关系。(购物篮分析) 协同过滤(CF,Collaborative Filtering) 协同过滤常 阅读全文
posted @ 2018-11-02 23:26 没有神保佑的瓶子 阅读(7845) 评论(1) 推荐(0) 编辑
摘要: 聚类分析 一、概念 聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性 聚类分析属于无监督学习 聚类对象可以分为Q型聚类和R型聚类 Q型聚类:样本/记录聚类 以距离为相似性指标 (欧氏距离、欧氏平方距离、马氏距离、明式距离等) R型聚类:指标/ 阅读全文
posted @ 2018-10-27 15:02 没有神保佑的瓶子 阅读(26922) 评论(0) 推荐(0) 编辑
摘要: 特征工程(Feature Engineering) 特征工程其本质上是一项工程活动,它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程的重要性: 特征越好,灵活性越强 特征越好,模型越简单 特征越好,性能越出色 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。特征工 阅读全文
posted @ 2018-10-26 11:44 没有神保佑的瓶子 阅读(1849) 评论(0) 推荐(0) 编辑
摘要: 目录 一、分类算法简介 二、KNN算法 三、贝叶斯分类算法 四、决策树算法 五、随机森林算法 六、SVM算法 一、分类算法简介 1、概念 1.1 监督学习(Supervised Learning) 从给定标注(训练集有给出明确的因变量Y)的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。 阅读全文
posted @ 2018-10-21 00:58 没有神保佑的瓶子 阅读(8968) 评论(0) 推荐(1) 编辑
摘要: 贝叶斯定理(Bayes Theorem) 朴素贝叶斯分类(Naive Bayes Classifier) 贝叶斯分类算法(NB),是统计学的一种分类方法,它是利用贝叶斯定理的概率统计知识,对离散型数据进行分类的算法。 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出 阅读全文
posted @ 2018-10-12 23:55 没有神保佑的瓶子 阅读(3503) 评论(0) 推荐(0) 编辑
摘要: KNN(K Nearest Neighbors):K近邻分类算法KNN算法从训练集中找到和新数据最接近的K条记录,然后根据他们的主要分类来决定新数据的类别。 KNN分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 阅读全文
posted @ 2018-10-08 23:56 没有神保佑的瓶子 阅读(1255) 评论(0) 推荐(0) 编辑
摘要: 神经网络(Artificial Neural Network):全称为人工神经网络(ANN),是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型。 部分原理: 下面是单个神经元的数学模型: +1代表偏移值(偏置项, Bias Units);X1,X2,X2代表初 阅读全文
posted @ 2018-10-07 22:39 没有神保佑的瓶子 阅读(3980) 评论(0) 推荐(0) 编辑