随笔分类 -  数据挖掘及机器学习

protobuf,log4j,日志处理及挖掘
摘要:http://blog.csdn.net/heavendai/article/details/72285241. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信... 阅读全文
posted @ 2015-01-04 14:45 Django's blog 阅读(471) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/heavendai/article/details/7228621CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫... 阅读全文
posted @ 2015-01-04 14:36 Django's blog 阅读(639) 评论(0) 推荐(0) 编辑
摘要:http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特... 阅读全文
posted @ 2015-01-04 14:35 Django's blog 阅读(1758) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/ice110956/article/details/17090061整理至11月中旬在重庆参加的自然语言处理与机器学习会议,第一讲为自然语言处理。由基本理论到实际运用,整理了基本的框架。1.自然语言处理基础词性标注(POS):为句子中的每个词语标注词性,可看... 阅读全文
posted @ 2014-12-16 11:43 Django's blog 阅读(1019) 评论(0) 推荐(0) 编辑
摘要:An Implementation of Double-Array Trie双数组Trie的一种实现原文:http://linux.thai.net/~thep/datrie/datrie.html引文:http://quweiprotoss.blog.163.com/blog/static/408... 阅读全文
posted @ 2014-11-04 10:32 Django's blog 阅读(728) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/program/java/tire-tree-participle.html最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。Trie树首先是Ansj分词最基本的数据结构——Trie树。Trie树也称字典树,能在常数时间O(len... 阅读全文
posted @ 2014-11-04 10:31 Django's blog 阅读(1203) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html双数组Trie树(DoubleArrayTrie)是一种空间复杂度... 阅读全文
posted @ 2014-11-04 10:28 Django's blog 阅读(3462) 评论(1) 推荐(1) 编辑
摘要:http://ansjsun.iteye.com/blog/702255 Trie树是搜索树的一种,它在本质上是一个确定的有限状态自动机,每个结点代表一个状态,根据输入变量的不同,进行状态转移。 为了减少Trie树结构的空间浪费,同时保证Trie[/size]树查询的效率,有研究者提出了用三个线性数... 阅读全文
posted @ 2014-11-04 10:24 Django's blog 阅读(974) 评论(0) 推荐(0) 编辑
摘要:http://www.xuebuyuan.com/1991441.html一、TRIE树简介(以下简称T树)TRIE树用于确定词条的快速检索,对于给定的一个字符串a1,a2,a3,…an,则采用TRIE树搜索经过最多n次匹配即可完成一次查找,而与词库中词条的数目无关。它的缺点是空间空闲率高。二、Do... 阅读全文
posted @ 2014-11-03 18:21 Django's blog 阅读(563) 评论(0) 推荐(0) 编辑
摘要:http://yanyiwu.com/work/2012/09/10/SVD-application-in-recsys.html10 Sep 2012参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说... 阅读全文
posted @ 2014-10-13 18:15 Django's blog 阅读(308) 评论(0) 推荐(0) 编辑
摘要:http://www.infoq.com/cn/news/2014/09/admaster-hadoop卢亿雷是现任AdMaster技术副总裁,曾在联想研究院、百度基础架构部、Carbonite China工作,关注高可靠、高可用、高扩展、高性能系统服务,以及Hadoop/HBase/Storm/S... 阅读全文
posted @ 2014-09-25 17:55 Django's blog 阅读(422) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/ysjxw/archive/2011/10/08/2201782.htmlComments from Xinwei: 最近的一个课题发展到与深度学习有联系,因此在高老师的建议下,我仔细看了下深度学习的基本概念,这篇综述翻译自http://deeplear... 阅读全文
posted @ 2014-07-25 11:57 Django's blog 阅读(492) 评论(0) 推荐(0) 编辑
摘要:http://www.zhizihua.com/blog/post/602.html说明:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻... 阅读全文
posted @ 2014-07-25 11:55 Django's blog 阅读(949) 评论(0) 推荐(1) 编辑
摘要:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用... 阅读全文
posted @ 2014-06-18 08:31 Django's blog 阅读(257) 评论(0) 推荐(0) 编辑
摘要:Topic Model的分类和设计原则http://blog.csdn.net/xianlingmao/article/details/7065318topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一... 阅读全文
posted @ 2014-06-16 22:53 Django's blog 阅读(784) 评论(0) 推荐(0) 编辑
摘要:http://www.tuicool.com/articles/vUvQVn时间2009-08-30 15:13:22不周山原文http://www.wentrue.net/blog/?p=559不久前,始于2006年的netflix prize名花有主,几年来一直领先的Bellkor队得到了最后的... 阅读全文
posted @ 2014-06-05 15:28 Django's blog 阅读(332) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/dark_scope/article/details/17228643〇.说明 本文的所有代码均可在DML找到,欢迎点星星。一.引入 推荐系统(主要是CF)是我在参加百度的电影推荐算法比赛的时候才临时学的,虽然没拿什么奖,但是知识却是到手了,一... 阅读全文
posted @ 2014-06-05 15:07 Django's blog 阅读(1148) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/guozk/p/3316790.htmlFP-Growth算法 FP-Growth(频繁模式增长)算法是韩家炜老师在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree),但仍保留项集关联信息;该算... 阅读全文
posted @ 2014-06-04 16:21 Django's blog 阅读(1096) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/zouxy09/article/details/17590137机器学习算法与Python实践之(六)二分k均值聚类zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机... 阅读全文
posted @ 2014-06-04 15:23 Django's blog 阅读(939) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.html#2956794华夏35度Data Mining,NLP,Search Engine机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数... 阅读全文
posted @ 2014-06-04 14:29 Django's blog 阅读(423) 评论(0) 推荐(0) 编辑