摘要: 今天我们提交了两次数据,第一次是11929条,成绩为76.35;第二次是12291条,成绩为77.38;我们通过将那几个新特征慢慢加进去,和将原来一些特征增删之后得出这次结果。我们从之前,到现在在筛选特征的过程中发现:在一个比较理想的特征组加入某个新特征后,数据值降低,用另一个新特征代替那个特征之后 阅读全文
posted @ 2017-06-30 20:13 jju_iipg 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 现在我们已经用wxpython制作一个gui程序,目前它只能用于筛选有用的特征组。我们知道好的特征是非常重要,但有用的特征组是同等重要,这个工具可以使我们更加迅速的筛选有用的特征组合,大大节约我们的时间,而且操作起来非常简单。 这个工具的缺点是:从几十个特征中筛选出十个特征速度为最优,如果特征数增加 阅读全文
posted @ 2017-06-27 21:26 jju_iipg 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 我们参加的大数据竞赛初赛已经结束,经过这些天的努力,我们也成功进入复赛。我们在初赛的最高成绩的准确率为97.65%;作为一名大一生,在与那些名校的竞争中,我们有这样的成绩,我们倍感高兴与自豪;现在我想从我们刚开始参加比赛时做一个简要的总结。 matlab入门 作为一名大一新生,别说对于 阅读全文
posted @ 2017-08-18 15:54 jju_iipg 阅读(2156) 评论(1) 推荐(1) 编辑
摘要: 今天添加了几个新特征,第一次的分数为81.6,第二次为82.63 阅读全文
posted @ 2017-07-08 22:12 jju_iipg 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 这几天相继增加了几个特征,但是成绩依旧不理想,接下来的工作依旧是找特征、找特征 阅读全文
posted @ 2017-07-06 23:25 jju_iipg 阅读(135) 评论(0) 推荐(0) 编辑
摘要: xgboost的安装虽然复杂,但是经过很多任大佬的不懈努力,现在的安装明显简单了很多(前提是装好scipy、numpy): 下载xgboost链接:http://pan.baidu.com/s/1dFd39pZ 密码:13wb 下载完之后解压,进到python-package这个目录下执行命令: p 阅读全文
posted @ 2017-07-04 22:07 jju_iipg 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 今天寻找了新特征和组合,并且提交了数据,很明显现在又步入止步不前的状态了,那么我们的特征肯定是不够的,我们还需要继续寻找特征,继续寻找组合,继续筛选特征 阅读全文
posted @ 2017-07-03 22:35 jju_iipg 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 随机森林是通过投票来预测数据的,每次投票票数超过半数的特征则被确认为某类数据,我们曾经觉得随机森林的投票太过严格,于是花了几天时间试着修改随机森林,让其投票超过4/10的数据认为是我们所需求的数据,可是接连的现象让我们发现我们的无知,我们的提交数据变多了,可分数降低了,而且越来越低,曾最低达到40分 阅读全文
posted @ 2017-07-02 23:07 jju_iipg 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 昨晚的博客没写,今天加上 这几天一直疯狂找特征,大家也都很努力、很上心 在这里把上个月的努力总结一下 作为一个程序员 ,我认为就是极大限度地“偷懒”,因为程序可以帮助我们完成我们想要的一些操作,我们曾经有好多个程序:一些是提取特征、随机森林的程序、非常多的特征组合程序、提取机器输出程序后其中含有的机 阅读全文
posted @ 2017-07-02 06:20 jju_iipg 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 数据归一化 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,一般为0到1之间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 常见的数据归一化的方法有: 1.min-max标准化(离差标准化) 是对原始数据 阅读全文
posted @ 2017-06-29 22:45 jju_iipg 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 总结一下现在的情况: 特征数目很少 训练数据很少 改进算法 但是作为刚刚入门Python的新手来说,更改算法等于扒皮抽筋——太难,所以目前算法方面继续探索,但是特征提取不能止步,而且抓紧时间把训练数据提上去 阅读全文
posted @ 2017-06-28 22:39 jju_iipg 阅读(131) 评论(0) 推荐(0) 编辑