07 2019 档案

摘要:Pandas是使用python进行数据分析不可或缺的第三方库。我们已经知道,NumPy的ndarray数据结构能够很好地进行数组运算,但是当我们需要进行为数据添加标签,处理缺失值,对数据分组,创建透视表等任务时,NumPy的的限制就非常明显了。而Pandas是在NumPy基础上建立的新程序库,提供了 阅读全文
posted @ 2019-07-29 14:35 HuZihu 阅读(437) 评论(0) 推荐(0) 编辑
摘要:类别不平衡问题是指:在分类任务中,数据集中来自不同类别的样本数目相差悬殊。 类别不平衡问题会造成这样的后果:在数据分布不平衡时,其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更高的分类准确率,但在我们所关注的少数类中表现不佳。 处理这个问题通常有3种方法: 1. 欠采样 假设 阅读全文
posted @ 2019-07-24 21:20 HuZihu 阅读(3973) 评论(1) 推荐(0) 编辑
摘要:之前介绍了这么多分类模型的性能评价指标(《分类模型的性能评价指标(Classification Model Performance Evaluation Metric)》),那么到底应该选择哪些指标来评估自己的模型呢?答案是应根据应用场景进行选择。 查全率(Recall):recall是相对真实的情 阅读全文
posted @ 2019-07-24 20:42 HuZihu 阅读(4423) 评论(0) 推荐(0) 编辑
摘要:二分类模型的预测结果分为四种情况(正类为1,反类为0): TP(True Positive):预测为正类,且预测正确(真实为1,预测也为1) FP(False Positive):预测为正类,但预测错误(真实为0,预测为1) TN(True Negative):预测为负类,且预测正确(真实为0,预测 阅读全文
posted @ 2019-07-20 17:14 HuZihu 阅读(5247) 评论(0) 推荐(0) 编辑
摘要:自助法(Bootstraping)是另一种模型验证(评估)的方法(之前已经介绍过单次验证和交叉验证:验证和交叉验证(Validation & Cross Validation))。其以自助采样法(Bootstrap Sampling)为基础,即有放回的采样或重复采样。(注:这是一种样本内抽样的方法, 阅读全文
posted @ 2019-07-16 14:12 HuZihu 阅读(15064) 评论(0) 推荐(1) 编辑
摘要:在机器学习中,当确定好一个模型后,我们需要将它保存下来,这样当新数据出现时,我们能够调出这个模型来对新数据进行预测。同时这些新数据将被作为历史数据保存起来,经过一段周期后,使用更新的历史数据再次训练,得到更新的模型。 如果模型的流转都在python内部,那么可以使用内置的pickle库来完成模型的存 阅读全文
posted @ 2019-07-15 17:56 HuZihu 阅读(7546) 评论(0) 推荐(0) 编辑
摘要:因为光看模型在训练集上的表现容易导致过拟合,因此回归模型通常有两种评价方式,一种是看验证/交叉验证的结果,另一种是对训练集上的表现结果进行修正,常见指标有:AIC,BIC,Cp,adjusted R2。 用验证/交叉验证方式评价回归模型性能的指标(Performance Evaluation Met 阅读全文
posted @ 2019-07-15 15:45 HuZihu 阅读(7896) 评论(0) 推荐(0) 编辑
摘要:TXT文件: txt是微软在操作系统上附带的一种文本格式,文件以.txt为后缀。 从txt文件中读取数据: with open ('xxx.txt') as file: data=file.readlines() 此外,还可以用pandas的read_table功能:pd.read_table(fi 阅读全文
posted @ 2019-07-14 21:34 HuZihu 阅读(7296) 评论(0) 推荐(0) 编辑
摘要:在《爬虫基础以及一个简单的实例》一文中,我们使用了正则表达式来解析爬取的网页。但是正则表达式有些繁琐,使用起来不是那么方便。这次我们试一下用Xpath选择器来解析网页。 首先,什么是XPath?XPath即XML路径语言(XML Path Language),用于在XML文档中查找信息(在XML文档 阅读全文
posted @ 2019-07-11 11:04 HuZihu 阅读(5042) 评论(0) 推荐(0) 编辑
摘要:以下摘自pymongo文档: update_one(filter, update, upsert=False) update_many(filter, update, upsert=False) filter: A query that matches the document to update. 阅读全文
posted @ 2019-07-11 10:57 HuZihu 阅读(3153) 评论(0) 推荐(0) 编辑
摘要:什么是超参数? 机器学习模型中一般有两类参数:一类需要从数据中学习和估计得到,称为模型参数(Parameter) 即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数 阅读全文
posted @ 2019-07-10 10:58 HuZihu 阅读(36781) 评论(2) 推荐(9) 编辑
摘要:之前在《训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set)》一文中已经提过对模型进行验证(评估)的几种方式。下面来回顾一下什么是模型验证的正确方式,并详细说说交叉验证的方法。 验证(Validation):把数据集随机分 阅读全文
posted @ 2019-07-08 14:18 HuZihu 阅读(14506) 评论(2) 推荐(0) 编辑
摘要:对于训练集,验证集,测试集的概念,很多人都搞不清楚。网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍。让我们先来看一下模型验证(评估)的几种方式。 在机器学习中,当我们把模型训练出来以后,该怎么对模型进行验证呢?(也就是说怎样知道训练出来的模型好不好?)有以下几种验证方式: 第一种方式:把 阅读全文
posted @ 2019-07-05 21:15 HuZihu 阅读(25501) 评论(4) 推荐(7) 编辑
摘要:有时候特征x和目标y不呈线性关系,线性模型y=wx+b不能很好地反映事物的规律或者无法对事物进行有效分类,因此此时我们需要使用非线性模型。 (x=([x1,x2,...,xn])T,w=([w1,w2,...,wn])T) 比如说下图的分类问题,显然无论用什么样的直线都很难把圈圈和叉叉很好地分隔开来 阅读全文
posted @ 2019-07-02 17:08 HuZihu 阅读(4233) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示