随笔分类 - 自然语言处理
自然语言处理的相关算法的实现
文本分类中的特征词选择算法系列科普(前言AND 一)
摘要:(转载请注明出处,作者:finallyliuyu) 前言:经了解,园子里有很多已经工作,但是对信息检索和自然语言处理感兴趣的同仁,也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客,和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法,参考自Yiming Yang 1997年的论文"A comparat...
阅读全文
中文分词:采用二元词图以及viterbi算法(三)
摘要:本博文为介绍如果采用二元词图以及Viterbi算法分词的系列博文之一,为主体算法模块,欢迎有此方面学习需要的朋友按顺序阅读。中文分词:采用二元词图以及viterbi算法(一)中文分词:采用二元词图以及viterbi算法(二) 中文分词:采用二元词图以及viterbi算法(四)下面讲解算法主体实现部分:首先给个定义:未登录词在我的程序设计体系中未登录词分为两种:“单词未登录词”...
阅读全文
中文分词:采用二元词图以及viterbi算法(四)
摘要:主程序:主程序 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-result=[]delimiter=''delimiter2='|'fromBigramwordsegemtation2importBygramVi...
阅读全文
中文分词:采用二元词图以及viterbi算法(二)
摘要:中文分词:采用二元词图以及Viterbi算法(三)中文分词:采用二元词图以及Viterbi算法(一)1。首先建立词典。此处词典要理解为:对训练语料库中的词进行词频等信息的统计后形成的数据结构,和“新华字典”中的字典意义不一样。我的实现中建立了两个词典:“单词”词典统计每个词的出现次数,“双词”词典统计每两个词连续出现的次数(因...
阅读全文
中文分词:采用二元词图以及viterbi算法(一)
摘要:说明: 本程序为中科院研究生院刘群老师的课程《计算语言学》的一个课程作业。所以,语料库来源于刘群老师,格式是1998年1月人民日报语料库经过编码后的格式。 语料库格式见正向最大匹配。关于二元词图以及Viterbi算法的入门性质介绍见二元词图,Viterbi算法入门简介 下面简单说一下:二元分词的思路。1. 建立词图:词图上的节点为单字(如果此单字在字典中出现,它的初始概率就由语料库计算,否则赋极小...
阅读全文
libsvm 数据预处理 模块化程序
摘要:实验框架图见libsvm文本分类:二分类(二) 实验框架图 下面是主模块代码,暂不公布全部代码代码 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-#codinggb2312fromSVMimportFolders...
阅读全文
libsvm文本分类:二分类(二) 实验框架图
摘要:问题总结:系统开发应该通用一种编程语言,像我的这次实验,由于Invertedtableconstruction 模块用C#语言编写,其他模块用python编写,所以很难一体化。也就是说如果进行N-fold 交叉验证,我只能手工循环实现以上流程图,而不能交给程序自己进行个N次循环实现
阅读全文
libsvm 文本分类(分两类)(实验结果)直接调用Libsvm工具
摘要:作者 finallyliuyu,转载请注明出处前言:研究生时期的最后一门作业是《统计机器学习》的阅读报告。为了让作业熠熠生辉,也同时是加深对某些混淆知识的理解,预计报告中包括以下几部分内容1. 统计机器学习机的基本框架图2.线性SVM的基本原理(主体部分) 包括如何转化成数学上的凸优化问题,转化成对偶问题。(此部分已经完成,数学推导没有看懂,只知道个流程。如果要想看懂此部分的数学推导,需要有泛函...
阅读全文
2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词
摘要:注意:本篇博文标红字部分为一处笔误的改正。非常感谢猎兔网开发工程师 罗刚指出错误。欢迎大家光临我的博客指正各种思维不周,本人不拒绝严格的批评,只要能指出具体错误,和改进方案采用这种方法首先要弄懂1.什么是二元语法模型:二元语法模型也就是一阶马尔科夫链,更通俗的说法是:一个词出现与否,仅有它前面一个词有关。举个例子:P(成|结合)*P(结合)>P(合成|结) *P(结)表示 “结合...
阅读全文
2010年分词大作业 ---正向最大匹配
摘要:(1)语料库格式:为了防止我们作弊,老师对汉字进行了编码,让我们对“加密后”的文本进行分词两个竖线之间的部分对应于一个词。首先介绍 正向最大匹配方法第一步:数据预处理与字典形成:首先语料库转化成一个set格式,set 包含 语料库中出现的全部词形成字典Code highlighting produced by Actipro CodeHighlighter (freewar...
阅读全文
产生式模型 VS 判别式模型
摘要:Generative modelFrom Wikipedia, the free encyclopediaJump to: navigation, searchIn statistics, a generative model is a model for randomly generating observable data, typically given some hidden parame...
阅读全文
语种说明
摘要:提问者: yaoyao641 - 三级最佳答案屈折语屈折语以词形变化作为表示语法关系的主要手段,以印欧语系诸语言为代表,如俄语、英语、法语等。其主要特点是: 第一,有比较丰富的词形变化,通过词形变化来表示词与词之 间的关系。例如“他”在英语中居于王格的位置是he,处于宾格的 位置是him,“鹅”的单数形式是goose,复数形式是geese。所谓屈 折...
阅读全文
相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)的java实现(三)
摘要:代码下载http://files.cnblogs.com/finallyliuyu/KL.rar主函数代码 主函数代码 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--publicstaticvoidmain(String[]args)throwsFi...
阅读全文
也谈贝叶斯分类(C#)版本
摘要:代码下载最近在做一个大作业。搭建一个信息检索平台。用到了贝叶斯分类参考了洞庭散人大哥的技术博客http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html但是,他的算法运行起来很慢,原因是IO操作过于频繁,而且有些IO操作是可以避免的。下面开始介绍我的贝叶斯分类算法实现。采用分词器为河北理工大学吕震宇老师的SHARPICTCLAS ...
阅读全文