随笔分类 -  NLP-Machine Learning

word2vec使用说明
摘要:word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 一、理论概述 (主要来源于http://licstar.net/archives/328这篇博客) 1.词向量是什么 自然语言理解的问题要转化为机 阅读全文
posted @ 2016-01-01 19:17 大雄fcl 阅读(10095) 评论(0) 推荐(0) 编辑
编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码
摘要:转自:编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码 JDK:java version “1.8.0_31”Java(TM) SE Runtime Environment (build 1.8.0_31-b13)Java HotSpot(TM) 64-Bit Server 阅读全文
posted @ 2015-12-17 10:53 大雄fcl 阅读(3158) 评论(1) 推荐(0) 编辑
K-means
摘要:首先要来了解的一个概念就是聚类,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分... 阅读全文
posted @ 2015-12-07 15:25 大雄fcl 阅读(407) 评论(0) 推荐(0) 编辑
LTP学习
摘要:下载LTP源码和模型文件:https://github.com/linux-test-project/ltp官方说明文档http://ltp.readthedocs.org/zh_CN/latest/begin.html 阅读全文
posted @ 2015-12-04 20:11 大雄fcl 阅读(184) 评论(0) 推荐(0) 编辑
ICTCLA中科院分词工具用法(java)
摘要:摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl... 阅读全文
posted @ 2015-11-18 10:32 大雄fcl 阅读(5851) 评论(0) 推荐(0) 编辑
LibLinear(SVM包)使用说明之(一)README
摘要:转自:http://blog.csdn.net/zouxy09/article/details/10947323/LibLinear(SVM包)使用说明之(一)READMEzouxy09@qq.comhttp://blog.csdn.net/zouxy09 本文主要是翻译liblinear-1.93... 阅读全文
posted @ 2015-11-11 15:42 大雄fcl 阅读(1639) 评论(0) 推荐(0) 编辑
LibSVM使用指南
摘要:LibSVM使用指南一、 SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空间是Rn的子集。如图1所示... 阅读全文
posted @ 2015-11-11 09:52 大雄fcl 阅读(4130) 评论(0) 推荐(0) 编辑
WEKA使用教程(界面工具的用法)
摘要:WEKA使用教程目录1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waik... 阅读全文
posted @ 2015-11-10 15:09 大雄fcl 阅读(2744) 评论(0) 推荐(0) 编辑
scikit-learn 机器学习工具包
摘要:scikit-learn官网:http://scikit-learn.org/stable/scikit-learn初始化学习:http://scikit-learn.org/stable/install.html#install-bleeding-edgescikit-learn安装:https:... 阅读全文
posted @ 2015-10-29 16:02 大雄fcl 阅读(325) 评论(0) 推荐(0) 编辑
结巴 中文分词
摘要:转自:https://github.com/fxsjy/jieba/tree/jieba3k以下是结巴的ReadMe,工具下载在源地址里有!jieba"结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text... 阅读全文
posted @ 2015-10-29 15:44 大雄fcl 阅读(1949) 评论(0) 推荐(0) 编辑
svm特征
摘要:svm特征格式:::.... 其中 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意实数。 是以1开始的整数,可以是不连续的;为实数,也就是我们常说的自变量。 这里面一个词:代表一维,如果要处理的某件事中有很多词是在同一维的比如训练人的特征,有身高,体重...则... 阅读全文
posted @ 2015-10-27 14:04 大雄fcl 阅读(440) 评论(0) 推荐(0) 编辑
LIBSVM
摘要:LIBSVM简介及其使用方法(台湾大学林智仁(Lin Chih-Jen)副教授等)转自http://endual.iteye.com/blog/1267442《Learn SVM Step by Step 》系列视频http://www.matlabsky.com/thread-18457-1-1.... 阅读全文
posted @ 2015-10-26 16:24 大雄fcl 阅读(260) 评论(0) 推荐(0) 编辑
HMM TOOL
摘要:HMM隐马尔科夫模型 MATLAB 工具包对各种数据的处理HMM 工具包下载地址:http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html工具包使用说明:http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm_usa... 阅读全文
posted @ 2015-10-19 09:27 大雄fcl 阅读(452) 评论(0) 推荐(0) 编辑
Axure教程
摘要:Axure教程 axure新手入门基础 阅读全文
posted @ 2015-10-09 11:28 大雄fcl 阅读(135) 评论(0) 推荐(0) 编辑
NLTk
摘要:1、python的nltk中文使用和学习资料汇总帮你入门提高http://blog.csdn.net/huyoo/article/details/12188573 阅读全文
posted @ 2015-09-24 18:39 大雄fcl 阅读(158) 评论(0) 推荐(0) 编辑
CRF++使用小结
摘要:1. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。 参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很... 阅读全文
posted @ 2015-05-13 20:29 大雄fcl 阅读(435) 评论(0) 推荐(0) 编辑
信息增益与熵
摘要:在信息论中,熵被用来衡量一个随机变量出现的期望值。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大,熵是整个系统的平均消息量。 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度... 阅读全文
posted @ 2015-04-18 21:34 大雄fcl 阅读(609) 评论(0) 推荐(0) 编辑
语言模型
摘要:斯坦福大学自然语言处理第四课“语言模型(Language Modeling)”一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/n... 阅读全文
posted @ 2015-03-31 09:26 大雄fcl 阅读(313) 评论(0) 推荐(0) 编辑
CRF条件随机场简介
摘要:CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其... 阅读全文
posted @ 2015-03-24 10:52 大雄fcl 阅读(412) 评论(0) 推荐(0) 编辑