随笔分类 - 数据挖掘及机器学习
protobuf,log4j,日志处理及挖掘
摘要:http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/#comment-87 Topic Modeling是一种文本挖掘的方法。将文本视作一个由许多许多词组成的数据
阅读全文
摘要:NLP常用工具 各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP Toolbox CLT http://complingone.georgetown.edu/~linguist/complin
阅读全文
摘要:cousera-Andrew NG的机器学习足够入门cs229台湾大学林轩田老师的机器学习基石和机器学习技法结合李航的<<统计学习方法>>和周志航的<<机器学习>> 看完之后看<<机器学习实战>>之后去kaggle打比赛, 再想深了看看pr
阅读全文
摘要:版权声明:作者:金良山庄,欲联系请评论博客或私信,个人主页:http://www.jinliangxu.com/,CSDN博客: http://blog.csdn.net/u012176591 版权声明:作者:金良山庄,欲联系请评论博客或私信,个人主页:http://www.jinliangxu.c
阅读全文
摘要:深度学习word2vec笔记之基础篇 http://blog.csdn.net/mytestmy/article/details/26961315 声明:1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,
阅读全文
摘要:http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NL
阅读全文
摘要:Parameter Server 详解 本博客仅为作者记录笔记之用,不免有很多细节不对之处。 还望各位看官能够见谅,欢迎批评指正。 更多相关博客请猛戳:http://blog.csdn.net/cyh_24 如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/artic
阅读全文
摘要:http://www.cnblogs.com/maybe2030/p/4665847.html 阅读目录 1. 复杂网络的特点 2. 社区检测 3. 结构平衡 4. 影响最大化 5. 网络传播 6. 补充 7. 参考文献 在我们的现实生活中,许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电
阅读全文
摘要:BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-r
阅读全文
摘要:这篇文章是对数据科学的简介,这门学科最近太火了。机器学习的竞赛也越来越多(如,Kaggle, TudedIT),而且他们的资金通常很可观。 R和Python是提供给数据科学家的最常用的两种工具。每一个工具都有其优缺点,但Python最近在各个方面都有所胜出(仅为鄙人愚见,虽然我两者都用)。这一切的发
阅读全文
摘要:TF-IDF及其算法概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数...
阅读全文
摘要:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html作者:阮一峰日期:2013年3月21日(一):自动提取关键词这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automat...
阅读全文
摘要:感谢百小度治哥,该文原地址:here经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省若干分钟)。如果有幸此文被想用scikit-learn的你看见,...
阅读全文
摘要:原文在这里Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 S...
阅读全文
摘要:http://blog.csdn.net/zouxy09/article/details/8775518Deep Learning(深度学习)学习笔记整理系列zouxy09@qq.comhttp://blog.csdn.net/zouxy09作者:Zouxyversion 1.0 2013-04-0...
阅读全文
摘要:ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文。http://www.aclweb.org/anthology-new/LDC: The Linguistic Data Consortiumhttp://www.ldc.upenn.edu/知网http:/...
阅读全文
摘要:http://www.blogjava.net/zhenandaci/archive/2008/06/05/205950.html学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督...
阅读全文
摘要:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选...
阅读全文
摘要:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息...
阅读全文
摘要:http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转...
阅读全文