11 2019 档案
摘要:背景 室友让我帮他从一个国外的FTP服务器上面爬一些数据。以前只是从网页上面爬,还没有从FTP服务器爬过,然后网上大概搜了一下,写了个简单的小demo。 安利一款自己在用的连接工具: IIS7服务器管理工具是一款windows全系、Linux系统下链接并操控VPS、VNC、FTP等远程服务器、云服务
阅读全文
摘要:交叉验证 将拿到的训练数据,分为训练集和验证机。以下图为例:将训练数据分为4份,其中一份作为验证集,。然后经过5次的测试,每次都更换不同的验证机, 最后得到5组模型的结果。最后取平均值作为最后的结果。这也称为4折交叉验证。 网格搜索(超参数搜索): 通常情况下,有很多参数是需要手动指定的(如K-近邻
阅读全文
摘要:再分类任务下,预测结果和真实情况之间存在四种不同的组合,这四种组合构成了混淆矩阵。 举个例子,看下图。当真实情况是猫,预测结果也是猫的时候,这个时候定义为真正例;当真实情况是猫,而预测结果不是猫的时候定义为伪反例子; 当真实情况不是猫,而预测结果是猫时定义为伪正例;当真实情况不是猫预测结果也不是猫时
阅读全文
摘要:学习这个算法前,得知道一些概率论上面得知识。 因此,使用朴素贝叶斯算法前,首先需要保证各个特征之间要保持相互独立。 API:sklearn.naive_bayes.MultinomialNB alpha时拉普拉斯平滑系数,默认为1。其作用时防止分类得时候类别为0时导致统计结果为0。 上个例子: 读取
阅读全文
摘要:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF指的是:term frequency :词的频率 IDF指的是:inverse document fre
阅读全文
摘要:什么是K-近邻算法? 答:官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 也就是说这个算法是用来分类的。 API:sklearn.neighbo
阅读全文
摘要:在日常的处理数据的时候,会遇到数据中某些地方没有值,也就是缺失了。 对于这种情况,一半有两种情况:删除和插补。 一般步建议删除。 API:sklearn.preprocessing.Imputer 参数介绍:missing_value 表示缺失值是什么;strategy 表示填补的策略,是用均值还是
阅读全文
摘要:因为归一化和标准化在数据分析和处理中都属于数据与预处理。因此,其API都在 sklearn.preprocessing中 1、归一化 作用:将数据映射到到某个区域内,默认是0到1之间。 API: sklearn.preprocessing.MinMaxScaler feature_range(0,1
阅读全文
摘要:前面讲到了,这个库适合学习,轻量级,所以先学它。 安装就不讲了,简单。不过得先安装numpy和pandas库才能安装scikit-learn库。 如果安装了anaconda得话,会自带有这个库。 1、首先进行字典特征提取 作用:对字典数据进行特征值提取。 API:sklearn.feature_ex
阅读全文
摘要:概念:机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。 数据集的构成 : 1、Kaggle:大数据竞赛平台、数据真实、数据量大 2、UCI:收录了360个数据集、覆盖了科学生活经济等多个领域、 3、scikit-learn:数据量小、方便学习
阅读全文
摘要:win+L组合键是比较常用的锁屏快捷键组合,一直用的好好的今天发现突然失灵。 百度大部分方法是改注册表的值,然而对我来说没有用。 最后,才搜到一个帖子说是 win键被锁住了。 【解决方法】: Fn+window 解锁 然后就正常了
阅读全文