JHJ_BABY

导航

2017年10月19日 #

TFIDF<细读>

摘要: 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文

posted @ 2017-10-19 17:18 JHJ_BABY 阅读(486) 评论(0) 推荐(0) 编辑

2017年10月9日 #

数据挖掘工程师的面试问题与答题思路【转】

摘要: 机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为:1、平台搭建类 数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识;2、算法研究类 - 文本挖掘,如领域知识图谱构建、垃圾短信过滤等; - 推荐,广告推荐、APP 推荐 阅读全文

posted @ 2017-10-09 21:26 JHJ_BABY 阅读(418) 评论(0) 推荐(0) 编辑

2017年10月6日 #

CTR常见规则摘录

摘要: 1、给用户推荐热门的10个商品 。 2、对数据进行预处理,删除未购买过品牌的用户记录(不删除最近一周才出现的新用户),删除未被购买过的品牌记录,删除疯狂点击但是从不购买的刷钻用户记录等,利用一些简单规则:定义热门品牌集合,交互时间记录统计,活跃用户集合,最近新出现的品牌集合,周期品牌集合,用户的品牌 阅读全文

posted @ 2017-10-06 18:42 JHJ_BABY 阅读(197) 评论(0) 推荐(0) 编辑

2017年9月1日 #

分类中数据不平衡问题的解决经验[转载]

摘要: 问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题 阅读全文

posted @ 2017-09-01 19:13 JHJ_BABY 阅读(174) 评论(0) 推荐(0) 编辑

机器学习积累【2】

摘要: 1、样本不平衡问题 正样本多余正样本: 1)欠采样,随机抽取负样本去除,使的正负样本比例平衡。缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息 2)过采样,增加一些正样本,使得正负样本比例接近。最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的方法 阅读全文

posted @ 2017-09-01 19:12 JHJ_BABY 阅读(230) 评论(0) 推荐(0) 编辑

2017年8月29日 #

机器学习-常见问题积累【1】

摘要: JHJ_BABY 平时学习积累、归纳、整理 1、python和R在做数据分析时各有自己得擅长得领域,如python做时域分析得难度就远远比R大,因为R有非常成熟得Package! 2、数据处理:如何处理缺失数据?各种处理方法得的利弊? 3、数据处理:如何将类别型(又称做描述型)变量转为连续变量?如何 阅读全文

posted @ 2017-08-29 18:30 JHJ_BABY 阅读(502) 评论(0) 推荐(0) 编辑

2017年5月3日 #

数据的归一化和标准化

摘要: 归一化: 把数据变成(0,1)之间的小数 把有量纲表达式变成无量纲表达式 归一化算法有: 1、线性转化: y=(x-MinValue)/(MaxValue-MinValue) 2、对数函数转化:y=log10(x) 3、反余切函数转换: y=arctan(x)*2/PI 规范化: 把数据按比例缩放, 阅读全文

posted @ 2017-05-03 16:15 JHJ_BABY 阅读(289) 评论(0) 推荐(0) 编辑

2017年5月2日 #

数据挖掘之特征选择

摘要: 1、去掉取值变化小的特征。 如某个特征取值为0,1,在样本中存在95%的取值为1,那么这个特征的作用不大 2、单变量特征的选择。 Pearson相关系数:权衡的是变量之间的线性相关性。它要求两个变量的变化是单调的,如y1=x和y2=x^2,Pearson系数为0,但其实两者并不是独立的。取值方位为: 阅读全文

posted @ 2017-05-02 17:10 JHJ_BABY 阅读(310) 评论(0) 推荐(0) 编辑

2017年4月22日 #

jupyter-notebook快捷键

摘要: Jupyter Notebook 的快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift-Ent 阅读全文

posted @ 2017-04-22 00:24 JHJ_BABY 阅读(237) 评论(0) 推荐(0) 编辑

2017年4月17日 #

python基础学习记录一

摘要: 1、如果脚本中带有中文(中文注释或者中文字符串,中文字符串前面需要在前面加u),且需要在文件头注明编码,并将UTF-8编码格式 #-*-coding:utf-8 -*- printf u'你好,WORLD!' 阅读全文

posted @ 2017-04-17 15:22 JHJ_BABY 阅读(116) 评论(0) 推荐(0) 编辑