会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
苹果提子
越秀山下
博客园
首页
新随笔
联系
订阅
管理
2020年10月7日
好久没更新过了
摘要: 忙于读研、忙于赶进度 工作也改变方向了 总之就是,不知道有啥好写
阅读全文
posted @ 2020-10-07 17:59 苹果提子
阅读(58)
评论(0)
推荐(0)
2017年7月15日
近半年所踩的坑的总结
摘要: 1. 算法(数学)原理重要不重要? 不重要。因为不懂数学,你也可以把数据扔进Sas,选择一个名字看起来有逼格的算法,然后CPU煎个鸡蛋,结果就出来了,还能配上不明觉厉的图形化结果。更有逼格的,网上搜一下'R/Python xxxx算法 代码',再吃个煎鸡蛋,结果也出来了。塞到TableAU搞一下,打
阅读全文
posted @ 2017-07-15 01:06 苹果提子
阅读(510)
评论(0)
推荐(0)
2017年7月7日
CentOS上安装Hadoop2.7,添加数据节点,运行wordcount
摘要: 安装hadoop的步骤比较繁琐,但是并不难。 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sy
阅读全文
posted @ 2017-07-07 00:12 苹果提子
阅读(773)
评论(0)
推荐(0)
2017年5月8日
在SCIKIT中做PCA 逆变换 -- 新旧特征转换
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在Scikit中运用PCA很简单: 以上代码是将含有4个特征的数据经过PCA压缩为3个特征。P
阅读全文
posted @ 2017-05-08 00:32 苹果提子
阅读(4005)
评论(0)
推荐(0)
2017年5月4日
特征工程之应用业务知识(保险)
摘要: 1. 可通过其他属性推断一些缺失值: 缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性; 费率可以推测被保人的性别,年龄 一般来说,吸烟者都会在系统中有标识,所以没有
阅读全文
posted @ 2017-05-04 00:56 苹果提子
阅读(327)
评论(0)
推荐(0)
2016年12月4日
随机森林 - 寿险客户信息分析
摘要: 注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 建模过程: 输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信
阅读全文
posted @ 2016-12-04 23:16 苹果提子
阅读(658)
评论(0)
推荐(0)
2016年11月30日
决策树 - 熵,信息增益的计算
摘要: 故事从一条小学数学题说起 "爸爸,熊猫为什么是3个不是11个" "宝贝,你还没学二进制好吗....." 以上故事纯属虚构,真实的对话其实是这样的 "爸爸, 为什么3比4小" "宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4. 4个. 你看小鸟是不是比猪猪多? 所以3比4小
阅读全文
posted @ 2016-11-30 20:43 苹果提子
阅读(14777)
评论(4)
推荐(1)
2016年11月15日
ORA-00911: invalid character --- 字符集的问题
摘要: 网上搜了一遍, 大多数是因为分号( ; ) 的问题. 而我的sql文件是没有分号的, 最后发现是sql文件编码和服务器字符集的差异造成 sql文件怎么都看不出问题,直到在UltraEdit里切换到16进制模式下才发现有些怪字符, 文件编码是UTF-8 然而服务器的字符集是TH8TISASCII se
阅读全文
posted @ 2016-11-15 20:32 苹果提子
阅读(6485)
评论(0)
推荐(0)
2016年11月7日
足球游戏论坛数据分析--简单粗暴的K均值聚类
摘要: 在<<足球游戏论坛数据分析--简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有 论坛帖子分类并非就是PC/PS/XBOX这么简单 即使是作者自己贴的标签,也存在挂羊头的可能性 既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现: #
阅读全文
posted @ 2016-11-07 23:56 苹果提子
阅读(914)
评论(0)
推荐(0)
2016年11月6日
[转]选择合适的机器学习算法
摘要:
阅读全文
posted @ 2016-11-06 11:23 苹果提子
阅读(114)
评论(0)
推荐(0)
下一页
公告