随笔 - 404
文章 - 0
评论 - 1037
阅读 -
136万
09 2010 档案
文本分类step by step(二)
摘要:(注:如有转载请标明作者:finallyliuyu, 和出处:博客园)《文本分类 step by step(一)》 在《文本分类step by step(一)》中,我们从处理语料库开始讲起,一直讲到利用分类器进行分类。文章末尾还随机抽取了一篇文章,给出了这篇文章的标题、正文、实际类别,分类器所分类别等信息。在此篇博客中我们将介绍分类器的评估,以及代码的一些介绍,最后给出程序和实验语料库的下载地址...
阅读全文
step by step 文本分类(一)
摘要:运行情况截图:结果的部分截图:(数据结构含义:比如“和睦”这个词”第一行term,第二行term出现在多少篇文章中,第三行:在id为多少的文章中出现过几次) · 特征词选择 代码中实现了两种特征词选择算法(DF法和chi-square法)。这里仅给出对chi-square特征词选择算法的调用。使用chi-square特征词选择法,首先需要构造出con...
阅读全文
欢迎大家加入NLP,WEBIR,DATA Ming 的技术QQ群
摘要: 群号:9826518 群简介:(来自群主“寄居”) 普及一下吧: 为了让新成员快速融入本群,为了让大家彼此之间多多交流,因此在这介绍一下本群以及各位成员。 本群讨论的话题主要为互联网方面的一些技术、创意,比如:NLP,架构,IR,Web Mining,推荐,ML,AI等等。只要你想到的,群里总有人在从事的。 在人员构成方面,这个群是我还在...
阅读全文
菜鸟进阶: C++实现KNN文本分类算法
摘要:作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布) KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。 它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看...
阅读全文
菜鸟进阶:C++实现Chi-square 特征词选择算法
摘要:作者:finallyliuyu(转载请标明原作者与出处)在文本分类问题中,离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述: (此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页 或者王斌译版p188页)此处仅赘述两点,其他还劳请读者自己去看书1。 上面的伪代码给出的是算法是...
阅读全文
评估分类器
摘要:经常把分类问题(多分类问题)看成是二类问题。譬如 一个文档集合中的所有文档可能属于 culture, military, education 的某一类。但是针对某一个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于该类? 如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就有了 查准率,查全率,F-score等性能评估标准。分...
阅读全文
近期工作安排
摘要:目前参与到了实验室的某一个项目中的子需求中。这个子需求可以归结为一个文本分类问题,但是对文本分类精度的要求非常高。所有考虑做如下工作: 1。 程序中实现KNN分类器或者多项式朴素贝叶斯分类器。(调用weka的分类器不太方便,还是自己直接写。毕竟这是做工程,而不是做“实验”) 目前已经完成了KNN分类器 2。考虑用bagging或者boosting的方法加强基本分类器的性能。或者通俗点说是用“...
阅读全文
引用和const 引用的区别(转自chinaitlab)
摘要:原文地址:http://c.chinaitlab.com/basic/747981.html1)在实际的程序中,引用主要被用做函数的形式参数--通常将类对象传递给一个函数.引用必须初始化. 但是用对象的地址初始化引用是错误的,我们可以定义一个指针引用.int ival = 1092;int &re = ival; //okint &re2 = &ival; //错误int ...
阅读全文
转载:C++变量命名规则
摘要:浅谈C++变量命名规则 不知道别的公司如何,反正我现在的公司对变量命名并没有一定的规范,唯一要求就是能简单易懂,但是,我想,这个多个程序员,大概每个人都有自己习惯的一套 命名规则吧,不过,要是并不通用的话,大概看别人的程序会很头疼吧,SO 为了别人看偶的程序不至于太头疼,偶决定找个通俗的命名法来参考下,于是,搜到了匈牙利命名法。。。匈牙利命名法的来历和介绍分类:C Plus Plus 匈牙利命名法...
阅读全文
C++程序计时
摘要:#include <time.h>clock_t start,finish;double totaltime;start=clock();finish=clock();totaltime=(double)(finish-start)/CLOCKS_PER_SEC;cout<<"词典序列化到磁盘的时间为"<<totaltime<<endl;
阅读全文
电影《山楂树之恋》——纯粹的年代塑造了纯粹的老三
摘要:觉得这个故事和梁家辉的《情人》在情节上有很多雷同的地方。比如女主角出身卑微,遇上那个爱他的男人的时候,还是一个懵懵懂懂的少女,对爱情的理解和诠释并不是很全面。朦朦胧胧地只是觉得有个大龄的男子对她很好,很开心很幸福,甚至分不清这种感情到底是不是爱情。就比如《这个杀手不太冷》中的那个小女孩,她父母离异,父亲贩毒,继母对她又十分刻薄,当她的全家人都死于一场毒枭与警察局之间的争斗中,仅她一人幸免于难的时候...
阅读全文
转 Habits of Highly Ineffective People
摘要:7 Habits of Highly Ineffective PeopleBy Henrik EdbergWith a twist to the common list of habits that are useful to establish, here are 7 habits that you do best to avoid.Just like finding habits that c...
阅读全文
寒号鸟的故事
摘要:传说有一种小鸟,叫寒号鸟。这种鸟与众鸟不同,它长着四只脚,两只光秃秃的肉翅膀,不会像一般的鸟那样飞行。 夏天的时候,寒号鸟全身长满了绚丽的羽毛,样子十分美丽。寒号鸟骄傲得不得了,觉得自己是天底下最漂亮的鸟了,连凤凰也不能同自己相比。于是它整天摇晃着羽毛,到处走来走去,还洋洋得意地唱着:“凤凰不如我!凤凰不如我!” 夏天过去了,秋天到来,鸟们都各自忙开了,它们有的开始...
阅读全文
菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库
摘要:注:此篇博客无法提供源代码下载,读者可自行从博文上拷贝代码。作者:finallyliuyu(博文转载请注明作者和出处)注:有网友提出来说直接把抽取之后的搜狗2008版新闻语料库发布,根据搜狗实验室的数据使用许可说明(http://www.sogou.com/labs/dl/license.html):有如下条款三.受益者的义务禁止将搜狗实验室数据提供给第三方使用,第三方如有需要可直接访问搜狗实验室...
阅读全文
写个自己:学C++有感
摘要:正式开始使用C++做工作已经有一个月了吧。这一个月进步很大。首先要感谢很多人的帮助,包括QQ群里的同学和网友,还有博客园里的园友。在其中,自己遇到的最大的问题是:当用一个还没有完全了解的语言特性或者说语言知识点去写程序时,总会出现一些匪夷所思的错误。每次遇到这种错误我会认为这种错误是由还没有用熟练的语言知识点造成的,于是乎到处去求救,但是回过头来发现,造成错误的原因是自己的一个小疏忽。 上一次,网...
阅读全文
从C++遍历路径中含有汉字的文件夹看宽窄字符串转换的问题
摘要:整理者:finallyliuyu NLP研究者或者开发人员如果选用C++语言作为开发工具。那么首先需要克服两个难题。 第一个难题是:学会在C++中使用正则表达式。鉴于C++本身并不支持正则表达式,所以我们需要借助第三方库boost.中的regex子库。网络上有很多关于boost的安装方法,比如有的方法介绍如何部分安装boost库,我这里也整理了一个如何完全安装boost库的方法:《C++安装b...
阅读全文
转windows遍历目录下所有文件
摘要:原作者:苏benbonwindows遍历目录下所有文件 收藏 在windows中遍历目录下的所有文件主要是使用FindFirstFile和FindNextFile通过递归调用实现的,类似于Linux的opendir和readdir。 在MSDN中,FindFirstFile的声明如下:HANDLE FindFirstFile( LPCTSTR lpFileName, LPWIN32_FIND_D...
阅读全文
音标,口型,舌位对照表:适合已有一定英语基础的人重新回顾音标发音,在不断的练习中让自己的发音更准确,口型更标准。
摘要:很久以前自己整理的资料。由于文档太多就不放到博客园了。文档阅读地址:http://wenku.baidu.com/view/22af8d22bcd126fff7050b25.html资源整理参考了此篇博客:http://yanjinqing.blog.163.com/blog/static/97041620087542414443/在该博主工作的基础上,我进行了整理,添加,并删除了一些截图,并调节...
阅读全文
有关编辑距离计算的一点整理。
摘要:一直让我困惑的问题是:abc与ca之间的编辑距离究竟等于几?问了很多同学和网友:大家的普遍观点是:如果在编辑距离定义中指明相邻交换操作为原子操作,那么应该等于2;反之,如果在编辑距离定义中为定义相邻交换操作为原子操作那么应该等于3。为了更好地阐明这个问题,先给出编辑距离的两种定义形式 1.Levenshtein distance(以下简称L氏距离)。 此距离由Levenshtein 于1965年定...
阅读全文
表达能力的重要性——更好的沟通才能有更好的理解。
摘要:近日,在论坛发帖介绍自己的语料库。第一个版本的帖子内容如下:http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html提供语料库下载链接第二个版本的帖子内容如下:我自己整理的一个中午新闻分类语料库,已经上传提供给和我一样对NLP狂热的业余爱好者下载。详情见http://www.cnblogs.com/finallyliuy...
阅读全文
转自水木NLP,duckyaya版主总结的关于文本分类的若干资源。
摘要:发信人: duckyaya (逃亡), 信区: NLP标 题: Re: 提供开源中文新闻文本分类语料库发信站: 水木社区 (Sun Sep 12 00:35:17 2010), 站内我以前也整理过一些http://www.scholarpedia.org/article/Text_categorization 涉及到文本分类的基本概念,存在的问题以及方向。http://www.cs.technio...
阅读全文
献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二
摘要:注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar(注意:有网友提出要MSSQL2000数据库的MDF版本数据,这样在2000以上的数据库上可以进行附加。所以给出MDF,LDF格式的语料库下载地址:MDF版本语料库下载地址)语
阅读全文
献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一
摘要:作者:finallyliuyu(注意:转载请标明作者和出处)献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二题记: 做研究,尤其是基于统计学方法的研究,常常需要大量的训练数据。详细这些东西在读研究生不难得到。在自然语言处理公司工作的工作人员也不难得到。但是这些东西属于机密,实验室和公司是不会轻易外传的。所以对于业余的爱好者来说,比如园子里的(蛙蛙,overred)是很难得到详实的语料库的...
阅读全文
寻根究底,探讨 chi -square特征词选择方法后面的数学支持
摘要:最近研究特征词选择算法,主要在研究chi方统计量的方法。Christopher D Manning的书《信息检索导论》中(王斌译作191页,英文原版255页)的公式定义如下: 我所迷惑不解的是这个公式为啥长成这个样子?对于我还是略有了解的,比如X~n(0,1),那么X^2就服从chi-square, 独立 独立的chi方分布相加后仍然是chi squared 变量,并且自由度为各个加数自由度的和。...
阅读全文
利用LibSVM进行二类文本分类系列
摘要:源代码下载作者:finallyliuyu 转载使用等请注明出处笔者按:此系列博文仅对于Libsvm二分类做入门性的介绍,并非研究libsvm的专业水准文章。至于如何用libsvm进行回归,多分类,笔者目前还没有涉及,请您查阅libsvm的相关文档说明。这里给出文本预处理模块(Python语言编写);调用libsvm进行文本分类模块采用C语言编写;实验结果处理模块(Matlab)用此份代码做的实验:...
阅读全文
LibSVM文本分类之结果统计
摘要:画图和计算结果准确率的matlab代码Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--%matrix横坐标featureDimension,纵坐标N_corpusfeatureDimension=[10,20,30,40,50,60,70,80,90,...
阅读全文
LibSVM文本分类之工程中调用LibSVM进行文本分类
摘要:作者:finallyliuyu 转载使用等请注明出处 首先介绍libsvm 中主要的文件svm.h,svm.c ,这个两个文件实现了svm的算法。 svm-train.c,svm-predict.c 分别完成训练和预测功能。 本来我参照svm-train,svm-predict中的 main函数,将train功能,和predict功能直接在程序中整合,结果,调了一天都有异常。。(我还是太菜了)...
阅读全文
LibSVM分类之文本预处理模块
摘要:作者:finallyliuyu 转载使用等请注明出处功能:根据:档集合大小,特征词数目,交叉验证折数的不同需求,快速生成Libsvm格式数据数据Demo请见:新闻文本分类libsvm格式数据预处理部分的框架图此模块的各个子模块的功能我就不详细介绍了,与此系列博客K-means文本聚类系列(已经完成) 一曲同工。下面开始给出各个子模块的代码:文档集分割:多少篇文章归为训练集,多少篇文章归为测试集:注...
阅读全文
近期计划
摘要:感觉自己涉入算法研究的时间太少了。好比一头拉磨的驴子,一直在纠结于一些细枝末节的技术。从C# 跑到Python,然后又回归C++,完全是在原地转了一个很大的圈圈。目前已经确定自己要学习C++语言,将在自己的实验框架都搭在C++语言平台上,这样就可以集中精力攻关一门语言了,不用C#会一点,Python会一点,却都是小半瓶水的水平了。近期还打算写三个系列的偏技术性质的博客,1。libsvm分类,包括文...
阅读全文
Kmeans文本聚类系列之如何调用Preprocess类
摘要:注意: 本代码中没有实现“C++工程调用weka”的功能,如果您要找这类的资料,那么您来错地方了。重申一下这份代码的目的:方便广大自然语言处理爱好者,研究者,不必过分究竟于编程的技术细节,而是能在一开始就将注意力集中在文本分类/聚类这个主题上。 拿我自己做个比方吧,我一直怀疑课本上所讲的各种特征词选择方法是否有效,比如课本上说DF法与IG法,CHI squire法效果差不多...
阅读全文
Kmeans文本聚类:获取weka计算的聚类中心,完成文本聚类
摘要:作者:finallyliuyu 转载使用等请注明出处上一讲:Kmeans文本聚类之VSM模型 中,给出了如何建立文档向量模型,以及写weka软件所要求的数据格式arff的代码。这里我们将介绍从weka中获取聚类中心,完成聚类的代码。至于如何用weka聚类,该软件使用说明等之类问题,本系列博客不做介绍,请大家自行google之。我们找到我们已经写好的arff文件: 点击start,出现结果后,单击鼠...
阅读全文
Kmeans文本聚类系列之全部代码
摘要:语料数据库实验结果以及中间数据文本预处理开源框架源代码头文件:
阅读全文
Kmeans 聚类之建立文档向量模型(VSM)
摘要:作者:finallyliuyu 转载使用等请注明出处在上一篇博文《Kmeans聚类之特征词选择DF》中我们已经给出了特征词选择的代码,这里我们将给出建立文档向量模型的代码,以及将文档向量模型写成Weka数据格式的代码。关于Weka数据格式等相关内容,请见:教程。首先我们给出写Arff头文件的代码下面重点介绍采用TF-IDF权重建立文档向量模型:在给出代码之前先简要介绍下什么是TF,DF对于一个特定...
阅读全文
VCKbase转载:C++调用ADO
摘要:在Visual C++中用ADO进行数据库编程由 wnchg 整理 1. 生成应用程序框架并初始化OLE/COM库环境 创建一个标准的MFC AppWizard(exe)应用程序,然后在使用ADO数据库的InitInstance函数中初始化OLE/COM库(因为ADO库是一个COM DLL库)。本例为:程序最后要调用 ::CoUninitialize();//释放程序占用的COM 资源。另外...
阅读全文
K-means文本聚类系列(已经完成)
摘要:(注意: 大家下载我的程序源码以后,可能需要从网络上下载一个新的ictclas3.0包,然后覆盖原工程文件中的ictclas3.0组件,可能是因为ictclas3.0的license许可,一份ictclas3.0包只可以在一台电脑中使用,目前已经有网友遇到了类似的问题。)作者:finallyliuyu 转载使用等请注明出处1。如何建立词袋子模型2。DF特征词选择法3。VSM模型4。从Weka获取聚...
阅读全文
MSSQL语句备份
摘要:insert into MyNews.dbo.news(ArticleTitle,ArticleText) select ArticleTitle,ArticlePureText from newsInfoWangYi where ArticleId between 1 and 20 表复制SELECT * INTOnewtable FROMoldtable WHERE ...用一个表的一列 更新另一个表的一列UPDATE DataCollection.dbo.Article SET DataCollection.dbo.Article.CKeyWord=ArticleAssist.dbo.f
阅读全文
提问的智慧
摘要:http://www.cnblogs.com/aoaoblogs/archive/2009/12/02/How-To-Ask-Questions-The-Smart-Way.html【嗷嗷按】菜鸟亦有道,我每天都在诵读这篇菜鸟的圣经,膜拜哪些高高在上的神,告诫自己作一个合格的菜鸟。 中文版转自http://www.linuxforum.net/doc/smartq-grand.html How T...
阅读全文