12 2016 档案
摘要:所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希
阅读全文
摘要:摘要: 在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。 背景: 记录loglikelihood ratio 相似度概念 总结: 在mahout中,loglik
阅读全文
摘要:http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习
阅读全文
摘要:http://www.jianshu.com/p/ab697790090f 特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世
阅读全文
摘要:http://www.letiantian.me/2015-03-31-bayes-classifier-for-text/ 2015-03-31 本文介绍如何使用scikit-learn工具包下的贝叶斯工具进行文本分类。 生成数据集 数据集是有8个分类的文本数据集,使用了结巴分词对每个文本分词,每
阅读全文
摘要:http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GBDT工具进行特征选取。 为什麽选取特征 有些特征意义不大,删除后不影响效果,甚至可能提升效果。 关于
阅读全文
摘要:http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GBDT工具进行特征选取。 为什麽选取特征 有些特征意义不大,删除后不影响效果,甚至可能提升效果。 关于
阅读全文
摘要:http://blog.csdn.net/superzrx/article/details/47073847 安装 SCIKIT-LEARN是一个基于Python/numpy/scipy的机器学习库 windows下最简单的安装方式是使用winpython进行安装 WinPython地址 GBDT使
阅读全文
摘要:http://www.52ml.net/1917.html 主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文
阅读全文
摘要:http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/#comment-87 Topic Modeling是一种文本挖掘的方法。将文本视作一个由许多许多词组成的数据
阅读全文
摘要:http://blog.csdn.net/xmdxcsj/article/details/48790317 Crf模型 1. 定义 一阶(只考虑y前面的一个)线性条件随机场: 相比于最大熵模型的输入x和输出y,crf模型的输入输出都是序列化以后的矢量,是对最大熵模型的序列扩展。 相比于最大熵模型的另
阅读全文
摘要:http://blog.csdn.net/marising/article/details/5769653 前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/op
阅读全文
摘要:作者:许铁-巡洋舰科技链接:https://www.zhihu.com/question/37082800/answer/126430702来源:知乎著作权归作者所有,转载请联系作者获得授权。 作者:许铁-巡洋舰科技链接:循环神经网络RNN打开手册 - 混沌巡洋舰 - 知乎专栏来源:知乎著作权归作者
阅读全文
摘要:Word2Vec 作者、脸书科学家 Mikolov 文本分类新作 fastText:方法简单,号称并不需要深度学习那样几小时或者几天的训练时间,在普通 CPU 上最快几十秒就可以训练模型,得到不错的结果。 1. fastText 原理 fastText 方法包含三部分:模型架构、层次 Softmax
阅读全文
摘要:转:http://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。 1. scikit-learn GBD
阅读全文
摘要:利用GBDT模型构造新特征具体方法 数据挖掘入门与实战 公众号: datadw 实际问题中,可直接用于机器学**模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学**模型效果的好坏。引用下面一句流行的话: 特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离
阅读全文
摘要:在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做
阅读全文
摘要:1.FM背景 在计算广告中,CTR预估(click-through rate)是非常重要的一个环节,因为DSP后面的出价要依赖于CTR预估的结果。在前面的相关博文中,我们已经提到了CTR中相关特征工程的做法。对于特征组合来说,业界现在通用的做法主要有两大类:FM系列与Tree系列。今天,我们就来讲讲
阅读全文
摘要:转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和数据流,google先后三年时间(
阅读全文
摘要:https://www.the5fire.com/trello-share.html 昨天在公司跟同事分享了关于trello的使用,这里也分享给大家。比较简单,重点是让你知道有这么个东西。tanglei童鞋的建议很有必要,因此加上这段从36kr摘过来的部分描述: 运营和管理一家公司的最大的难点就是跟
阅读全文
摘要:作者:the5fire | 标签: MVC tornado | 发布:2012-08-06 2:41 p.m. 文接上篇,看我一个简单的helloworld,虽然觉得这个框架着实精小,但是实际开发总不能这么用。所以还是应该按照实际开发来写一个helloworld。 既然是实际项目版的hellowor
阅读全文
摘要:作者:auxten链接:https://zhuanlan.zhihu.com/p/20054757来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 CGI(Common Gateway Interface) 最初,CGI 是在 1993 年由美国国家超级电脑应用中心(N
阅读全文