随笔分类 -  数据挖掘及机器学习

protobuf,log4j,日志处理及挖掘
摘要:http://www.52nlp.cn/resources资源这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理!特别推荐系列:1、HMM学习最佳范例全文文档,百度网盘链接:http://pan.baidu.com/s/1pJ... 阅读全文
posted @ 2015-02-04 15:19 Django's blog 阅读(368) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/nlp/parsing/crf-sequence-annotation-chinese-dependency-parser-implementation-based-on-java.html这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采... 阅读全文
posted @ 2015-01-15 12:12 Django's blog 阅读(1647) 评论(0) 推荐(0) 编辑
摘要:算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,... 阅读全文
posted @ 2015-01-15 12:09 Django's blog 阅读(2155) 评论(0) 推荐(2) 编辑
摘要:http://www.hankcs.com/nlp/corpus/several-revenue-segmentation-system-used-set-of-source-tagging.html我发现几个民间的分词项目的词典很乱,ansj分词的作者承认arrays.dic是从结巴分词抄过来的,... 阅读全文
posted @ 2015-01-15 12:04 Django's blog 阅读(518) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/nlp/ner/place-names-to-identify-actual-hmm-viterbi-role-labeling.html命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写... 阅读全文
posted @ 2015-01-14 18:16 Django's blog 阅读(1222) 评论(0) 推荐(0) 编辑
摘要:与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF... 阅读全文
posted @ 2015-01-14 17:50 Django's blog 阅读(1726) 评论(2) 推荐(1) 编辑
摘要:http://www.hankcs.com/nlp/part-of-speech-tagging.html词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容... 阅读全文
posted @ 2015-01-14 17:48 Django's blog 阅读(1099) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/nlp/segment/ictclas-the-hmm-name-recognition.html本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新K... 阅读全文
posted @ 2015-01-14 17:18 Django's blog 阅读(393) 评论(0) 推荐(0) 编辑
摘要:http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.htmlHMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{... 阅读全文
posted @ 2015-01-14 17:15 Django's blog 阅读(1310) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/lsldd/article/details/41223147从这一章开始进入正式的算法学习。首先我们学习经典而有效的分类算法:决策树分类算法。1、决策树算法决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归。不过对于一些特殊的逻辑分... 阅读全文
posted @ 2015-01-07 19:14 Django's blog 阅读(927) 评论(0) 推荐(0) 编辑
摘要:http://www.52ml.net/15539.html2014年05月25日⁄ 字号小中大所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索... 阅读全文
posted @ 2015-01-07 18:24 Django's blog 阅读(843) 评论(0) 推荐(0) 编辑
摘要:MLsklearn快速入门申明:该系列博客是学习 sklearn 的笔记,内容将涵盖大部分机器学习的方法。本人微博@迅猛龙Daniel,能力有限,存在任何问题,希望共同交流。该博客采用马克飞象专业版编写,感谢开发者@GGock。环境:ubuntu 12.04, 64 bitspython 2.7sk... 阅读全文
posted @ 2015-01-06 20:17 Django's blog 阅读(439) 评论(0) 推荐(0) 编辑
摘要:http://www.csdn.net/article/2012-12-28/2813275-Support-Vector-Machine摘要:支持向量机(SVM)已经成为一种非常受欢迎的算法。本文主要阐述了SVM是如何进行工作的,同时也给出了使用Python Scikits库的几个示例。SVM作为... 阅读全文
posted @ 2015-01-06 20:16 Django's blog 阅读(529) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/abcjennifer/article/details/23615947文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无... 阅读全文
posted @ 2015-01-06 20:13 Django's blog 阅读(1420) 评论(0) 推荐(0) 编辑
摘要:http://cloga.info/2014/01/19/sklearn_text_feature_extraction/文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是... 阅读全文
posted @ 2015-01-06 18:07 Django's blog 阅读(2155) 评论(0) 推荐(0) 编辑
摘要:http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954上一节主要介绍的是利用最大熵工具包来做字标注中文分词,这一节... 阅读全文
posted @ 2015-01-04 16:52 Django's blog 阅读(870) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/marising/article/details/5769653前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/ope... 阅读全文
posted @ 2015-01-04 16:46 Django's blog 阅读(1320) 评论(0) 推荐(0) 编辑
摘要:http://biancheng.dnbcw.info/java/341268.htmlCRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:... 阅读全文
posted @ 2015-01-04 16:28 Django's blog 阅读(3724) 评论(0) 推荐(0) 编辑
摘要:http://langiner.blog.51cto.com/1989264/379166原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/379166条件随机场 (CRF... 阅读全文
posted @ 2015-01-04 14:58 Django's blog 阅读(893) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/heavendai/article/details/70301021.首先来说一下马尔科夫链。一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…w... 阅读全文
posted @ 2015-01-04 14:46 Django's blog 阅读(315) 评论(0) 推荐(0) 编辑