摘要: 赛题地址: "https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100065.200879.2.6r6s4g&raceId=231587" "第一赛季数据" 目录 [TOC] 正式开始做是从十月底开始的, " 阅读全文
posted @ 2017-04-14 09:20 立刻有 阅读(915) 评论(0) 推荐(0) 编辑
摘要: 监督学习问题: 1、线性回归模型: 适用于自变量X和因变量Y为线性关系 2、广义线性模型: 对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的多项式函数拟合 是为了克服线性回归模型的缺点出现的,是线... 阅读全文
posted @ 2016-03-28 14:26 立刻有 阅读(600) 评论(0) 推荐(0) 编辑
摘要: 我觉得首先有必要简单说说交叉验证,即用只有一个训练集的时候,用一部分数据训练,一部分做测试,当然怎么分配及时不同的方法了。 1)k-folder cross-validation: k个子集,每个子集均做一次测试集,其余的作为训练集。交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平... 阅读全文
posted @ 2016-03-18 10:28 立刻有 阅读(926) 评论(0) 推荐(0) 编辑
摘要: 最近期末测试完结了,正好恰逢周末,就想找点事来做,之前做过爬虫,遇到了登录的问题,今天就来整理下。 登录问题其实就是程序发送请求,服务器返回数据时,发出http响应消息报文,这两种类型的消息都是由一个起始行,而cookie就在在http请求和http响应的头信息中,在请求中添加... 阅读全文
posted @ 2016-03-18 10:28 立刻有 阅读(2298) 评论(0) 推荐(0) 编辑
摘要: 第一次写博客,希望能帮到别人,同时愿意相互进行一些讨论,互相进步。 最近在做有关项目的时候,由于服务器数据库被其他人算法读取,导致我读取的时候很慢,于是乎打算将自己需要的表导入到本地的mysql数据库进行处理,刚开始当然是不想写代码,尝试用kettle实现表迁移,但是无奈数据量较大,... 阅读全文
posted @ 2016-03-18 10:28 立刻有 阅读(3745) 评论(0) 推荐(1) 编辑
摘要: Standardization, or mean removal and variance scaling Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据。 实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。 s... 阅读全文
posted @ 2016-03-17 17:11 立刻有 阅读(225) 评论(0) 推荐(0) 编辑