摘要: 忙于读研、忙于赶进度 工作也改变方向了 总之就是,不知道有啥好写 阅读全文
posted @ 2020-10-07 17:59 苹果提子 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 1. 算法(数学)原理重要不重要? 不重要。因为不懂数学,你也可以把数据扔进Sas,选择一个名字看起来有逼格的算法,然后CPU煎个鸡蛋,结果就出来了,还能配上不明觉厉的图形化结果。更有逼格的,网上搜一下'R/Python xxxx算法 代码',再吃个煎鸡蛋,结果也出来了。塞到TableAU搞一下,打 阅读全文
posted @ 2017-07-15 01:06 苹果提子 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 安装hadoop的步骤比较繁琐,但是并不难。 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sy 阅读全文
posted @ 2017-07-07 00:12 苹果提子 阅读(771) 评论(0) 推荐(0) 编辑
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在Scikit中运用PCA很简单: 以上代码是将含有4个特征的数据经过PCA压缩为3个特征。P 阅读全文
posted @ 2017-05-08 00:32 苹果提子 阅读(3880) 评论(0) 推荐(0) 编辑
摘要: 1. 可通过其他属性推断一些缺失值: 缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性; 费率可以推测被保人的性别,年龄 一般来说,吸烟者都会在系统中有标识,所以没有 阅读全文
posted @ 2017-05-04 00:56 苹果提子 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 建模过程: 输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信 阅读全文
posted @ 2016-12-04 23:16 苹果提子 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 故事从一条小学数学题说起 "爸爸,熊猫为什么是3个不是11个" "宝贝,你还没学二进制好吗....." 以上故事纯属虚构,真实的对话其实是这样的 "爸爸, 为什么3比4小" "宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4. 4个. 你看小鸟是不是比猪猪多? 所以3比4小 阅读全文
posted @ 2016-11-30 20:43 苹果提子 阅读(14659) 评论(4) 推荐(1) 编辑
摘要: 网上搜了一遍, 大多数是因为分号( ; ) 的问题. 而我的sql文件是没有分号的, 最后发现是sql文件编码和服务器字符集的差异造成 sql文件怎么都看不出问题,直到在UltraEdit里切换到16进制模式下才发现有些怪字符, 文件编码是UTF-8 然而服务器的字符集是TH8TISASCII se 阅读全文
posted @ 2016-11-15 20:32 苹果提子 阅读(6473) 评论(0) 推荐(0) 编辑
摘要: 在<<足球游戏论坛数据分析--简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有 论坛帖子分类并非就是PC/PS/XBOX这么简单 即使是作者自己贴的标签,也存在挂羊头的可能性 既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现: # 阅读全文
posted @ 2016-11-07 23:56 苹果提子 阅读(899) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-06 11:23 苹果提子 阅读(114) 评论(0) 推荐(0) 编辑