会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
上一页
1
···
32
33
34
35
36
37
38
39
40
41
下一页
2019年4月12日
装饰器-wrapper
摘要: 我跟别人说我精通python,别人问我wrapper是啥,我说不知道,尼玛,原来wrapper就是装饰器,熟的不得了啊,英语真是我的克星啊。 闭包 closure 在认识装饰器之前先认识下闭包 闭包,顾名思义就是把什么东西封闭在保内,什么东西呢?变量和函数。 在一个函数里装了另一个函数,里面那个函数
阅读全文
posted @ 2019-04-12 09:49 努力的孔子
阅读(3328)
评论(0)
推荐(0)
编辑
2019年4月11日
类别不均衡
摘要: 类别不均衡问题就是不同类别的样本数差别很大,很容易理解,不再赘述。 这种情况会导致模型的误判,比如2分类,正例998,反例2,那么即使我们所有的样本都识别为正例,正确率高达99.8%,然而并没有什么卵用。 对于类别不均衡问题,大体上主要有两种,即以数据为中心驱动和以算法为中心的解决方案。 数据策略
阅读全文
posted @ 2019-04-11 17:03 努力的孔子
阅读(517)
评论(0)
推荐(0)
编辑
参数优化-学习曲线
摘要: 验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练
阅读全文
posted @ 2019-04-11 11:57 努力的孔子
阅读(713)
评论(0)
推荐(0)
编辑
参数优化-验证曲线
摘要: 通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时,
阅读全文
posted @ 2019-04-11 11:32 努力的孔子
阅读(590)
评论(0)
推荐(0)
编辑
参数优化-API
摘要: 网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序
阅读全文
posted @ 2019-04-11 10:54 努力的孔子
阅读(499)
评论(0)
推荐(0)
编辑
参数优化-偏差与方差
摘要: 我们知道训练模型时经常会有一些误差,我们要想弥补这些误差,首先要搞清楚这些误差是怎么产生的。 误差的分解 假设我们要预测的模型为 y=f(x),但是通常数据都会有一些噪音,我们的数据集为y=f(x)+noise,通常我们会假设数据服从正态分布,也就是噪音会均分分布在曲线两侧,所以噪音和为0。 假设有
阅读全文
posted @ 2019-04-11 10:51 努力的孔子
阅读(827)
评论(0)
推荐(0)
编辑
2019年4月7日
决策树-回归
摘要: 决策树常用于分类问题,但是也能解决回归问题。 在回归问题中,决策树只能使用cart决策树,而cart决策树,既可以分类,也可以回归。 所以我们说的回归树就是指cart树。 为什么只能是cart树 1. 回想下id3,分裂后需要计算每个类别占总样本的比例,回归哪来的类别,c4.5也一样 2. 回归问题
阅读全文
posted @ 2019-04-07 18:45 努力的孔子
阅读(2554)
评论(0)
推荐(0)
编辑
网络代理
摘要: 代理,就是找个人代替你 正向代理 客户端的代理,找个IP替你访问web服务器 在浏览器中设置代理:设置==>高级设置==>代理服务器设置 不同浏览器设置方法不同,大致思路一致 反向代理 服务端的代理,找个服务器替你响应请求,有几个作用 1. 把请求分散到不同服务器上,减缓压力 2. 隐藏真实 IP,
阅读全文
posted @ 2019-04-07 15:53 努力的孔子
阅读(870)
评论(0)
推荐(0)
编辑
反爬与反反爬
摘要: 很多网站都有反爬机制,自从有了爬虫,反爬与反反爬的斗争就没停过,而且都在不断升级。 下面介绍一些常见的反爬与反反爬机制。 基于headers的反爬 基于用户请求的headers反爬是最常见的反爬机制。 在请求头headers中,包含很多键值对,服务器会根据这些键值对进行反爬。 1. User-Age
阅读全文
posted @ 2019-04-07 14:28 努力的孔子
阅读(1942)
评论(0)
推荐(0)
编辑
2019年4月6日
朴素贝叶斯
摘要: 朴素贝叶斯是一个概率模型,在数学上能用概率解释的模型一般被认为是好模型。 朴素贝叶斯常用于文本分类。 先介绍几个基础概念。 1. 概率 设x为符合某种特征的样本,H为某个假设,比如假设x属于类别c,那分类就是求这个假设发生的概率,即P(H|x)的大小。 P(H|X)是后验概率,或者说在条件X下,H的
阅读全文
posted @ 2019-04-06 08:39 努力的孔子
阅读(577)
评论(0)
推荐(0)
编辑
上一页
1
···
32
33
34
35
36
37
38
39
40
41
下一页
导航
博客园
首页
新随笔
新文章
联系
订阅
管理