随笔分类 -  自然语言处理

自然语言处理的相关算法的实现
搜狗输入法招聘数据挖掘、自然语言处理实习生
摘要:工作内容:改善搜狗输入法(Android/iPhone/iPad/TV平台)和搜狗号码通产品核心品质,提升用户体验:输入更快更精准,陌生来电识别更全更准职位要求:1. 对自然语言处理/数据挖掘相关技术及应用(机器学习/语言模型/分词/机器翻译/推荐系统/用户行为分析等)技术有相关项目经验2. 有知识... 阅读全文
posted @ 2014-04-16 20:29 finallyly 阅读(4296) 评论(4) 推荐(1) 编辑
备忘
摘要:1.字符串处理,资源整理用脚本perl2.算法正式版实现用C/C++3.如果算法实验的过程中涉及到矩阵和数学运算,或者是嵌套形式的hash用python4.字符串统一用char,不要搞一些稀奇古怪的字符类型,否则不好移植。5.算法版本分为实验版本和正式版本,实验版本主要是验证思想;正式版本要做注意格式等,因为要拿出去和别人交流。另外正式版本的代码必须要有异常捕获等级制。好的代码是没有“意外”的,任何失败情况都应该从LOG中找到相应的解释。6.程序内部应该实现不合法情况的校验,而不是仅在程序注释或者文档中写一大堆注意事项,因为写了也白写,你下方调用的人根本不会看。7. 载入的文件名都用const 阅读全文
posted @ 2012-09-13 09:26 finallyly 阅读(902) 评论(0) 推荐(1) 编辑
硕士学位论文 面向自动化学科中文期刊论文的文本挖掘系统
摘要:课题简介: “自动化学科创新思想与科学方法研究”课题,编号2009IM020300。 项目旨在对影响国内自动化领域发展的知识要素(包括 人物、机构、研究对象等)进行系统分析,形成知识体系,构建知识服务网络平台,提供知识服务,促进知识创新。 项目涉及文献情报分析与研究、知识关联与服务等层面,但是在底层数据获取的方面需要依赖于文本挖掘技术。资源简介:论文:面向自动化学科中文期刊论文的文本挖掘系统PPT:面向自动化学科中文期刊论文的文本挖掘系统PPT数据专区:http://www.datatang.com/member/5878以下算法在论文中都有提到,人名消歧和机构名称归一http://downl 阅读全文
posted @ 2012-06-02 11:03 finallyly 阅读(4077) 评论(14) 推荐(5) 编辑
小谈“汉字转换成拼音(不带声调)”
摘要:(作者:finallyly 出处:博客园 转载请注明作者和出处) 把汉字转换成拼音,实际上是一个非技术活,无外乎查表而已。可能由于汉字拼音转换表资源比较宝贵的缘故,网络上开源的转换程序比较少。另外,网络上给出的码表,可能不能覆盖全部的多音字,生僻字,所以基于此类码表写成的程序,也就有一定的局限性。 本文给出一份完毕的,将汉字转换成无声调标注的拼音的设计思路、全部代码并且给出一份在一定程度上可用的汉字拼音转换表。首先指出本文部分参考了 《Python返回汉字的汉语拼音(原创) 》的汉字拼音转换表以及大概思路。下面步入正轨汉语拼音转换表的物理存储格式:(汉字+空格+汉字对应的拼音,多个候选读音用哪 阅读全文
posted @ 2011-05-16 21:58 finallyly 阅读(14828) 评论(11) 推荐(8) 编辑
汉语科技术语识别实验结果
摘要: 阅读全文
posted @ 2011-04-19 09:46 finallyly 阅读(814) 评论(0) 推荐(1) 编辑
分享《文本分类初探PPT》
摘要:我这个PPT做的相对简略,不适合学习。建议你读《信息检索导论》中的第十三章,一目了然。我PPT里面的很多东西都是借鉴了这本书RT。最近二师兄让我做个关于文本分类的报告,于是就有了这份PPT。算是对我以往两个月工作的一个总结。PPT下载地址见http://files.cnblogs.com/finallyliuyu/TextClassification.ppt该PPT其实也是对我过去写的一系列文本分类博文的总结,所以相关内容,大家可以参考我的“置顶”系列博文。有网友反应,我的博文中“链接”套用的很乱,点来点去,就找不到入口了。对此,我深感抱歉!以前确实没有考虑过这个问题,只是在置顶系列博文中加入 阅读全文
posted @ 2010-11-10 15:15 finallyly 阅读(1963) 评论(18) 推荐(1) 编辑
文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释
摘要:最终版本的文本分类代码、语料、以及中间文件都已经开源共享见:http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。(注:转载请注明作者和出处 作者:finallyliuyu 出处:博客园)适用人群:文本分类初学者、新手、菜鸟、业余爱好者目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借 阅读全文
posted @ 2010-10-04 22:50 finallyly 阅读(22778) 评论(61) 推荐(5) 编辑
针对特征词选择法的验证实验“各种特征词选择算法对文本分类性能的影响”:纸上得来终觉浅,觉知此事要躬行
摘要:(注:博文转载请注明作者和出处 作者:finallyliuyu 出处:博客园)本博文旨在通过实践验证各种特征词选择算法对文本分类性能的影响。根据Yi ming yang 1999年的论文《A comparision of feature selection algorithms in Text Categorization》中的论断: DF,IG,CHI-square法性能差不多,point wi... 阅读全文
posted @ 2010-10-04 21:51 finallyly 阅读(5417) 评论(11) 推荐(3) 编辑
针对特征词选择法的验证实验“各种特征词选择算法对文本分类性能的影响”:纸上得来终觉浅,觉知此事要躬行 (实验数据下载)
摘要:(注:博文转载请注明作者和出处 作者:finallyliuyu 出处 博客园)将实验数据公布出来,目的在于可以方便有相同爱好者的网友,直接下载中间数据快速重现实验。资源空间提供方:download.csdn.net统计词典以及关联表数据结构每个数据包中共有四个文件:keywords.dat,testVSM.dat,trainingVSM.dat,evaluation.txt (.dat文件需要用u... 阅读全文
posted @ 2010-10-04 20:46 finallyly 阅读(1120) 评论(17) 推荐(0) 编辑
按类别DF特征词选择算法
摘要:声明:按类别特征词选择算法声明 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--vector<pair<string,double>>LocalDFFeatureSelectionForPerclass(DICTIONARY&a... 阅读全文
posted @ 2010-10-04 16:28 finallyly 阅读(3486) 评论(0) 推荐(0) 编辑
从文本分类问题中的特征词选择算法追踪如何将数学知识,数学理论迁移到实际工程中去
摘要:博文转载请注明作者和出处(作者:finallyliuyu :出处博客园)附:《卡方特征词选择算法》  《DF特征词选择算法》一.数学背景将数学知识、数学理论以及数学思想迁移到实际工程问题中,经常会促进工程问题的圆满解决。可是如何将数学知识引入工程问题中呢?首先需要有“数学思维”例如理解数学公式所刻画的内涵;其次需要有“建模”能力:从不同的视角来看待同... 阅读全文
posted @ 2010-10-04 09:53 finallyly 阅读(4619) 评论(4) 推荐(3) 编辑
文本分类step by step(二)
摘要:(注:如有转载请标明作者:finallyliuyu, 和出处:博客园)《文本分类 step by step(一)》  在《文本分类step by step(一)》中,我们从处理语料库开始讲起,一直讲到利用分类器进行分类。文章末尾还随机抽取了一篇文章,给出了这篇文章的标题、正文、实际类别,分类器所分类别等信息。在此篇博客中我们将介绍分类器的评估,以及代码的一些介绍,最后给出程序和实验语料库的下载地址... 阅读全文
posted @ 2010-09-29 19:30 finallyly 阅读(4712) 评论(5) 推荐(3) 编辑
step by step 文本分类(一)
摘要:运行情况截图:结果的部分截图:(数据结构含义:比如“和睦”这个词”第一行term,第二行term出现在多少篇文章中,第三行:在id为多少的文章中出现过几次) · 特征词选择 代码中实现了两种特征词选择算法(DF法和chi-square法)。这里仅给出对chi-square特征词选择算法的调用。使用chi-square特征词选择法,首先需要构造出con... 阅读全文
posted @ 2010-09-29 14:55 finallyly 阅读(8385) 评论(22) 推荐(1) 编辑
菜鸟进阶: C++实现KNN文本分类算法
摘要:作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布)     KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。     它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看... 阅读全文
posted @ 2010-09-26 21:58 finallyly 阅读(14969) 评论(31) 推荐(8) 编辑
菜鸟进阶:C++实现Chi-square 特征词选择算法
摘要:作者:finallyliuyu(转载请标明原作者与出处)在文本分类问题中,离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述: (此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页 或者王斌译版p188页)此处仅赘述两点,其他还劳请读者自己去看书1。 上面的伪代码给出的是算法是... 阅读全文
posted @ 2010-09-26 20:12 finallyly 阅读(8916) 评论(17) 推荐(4) 编辑
评估分类器
摘要:经常把分类问题(多分类问题)看成是二类问题。譬如 一个文档集合中的所有文档可能属于 culture, military, education 的某一类。但是针对某一个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于该类? 如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就有了 查准率,查全率,F-score等性能评估标准。分... 阅读全文
posted @ 2010-09-26 15:41 finallyly 阅读(4340) 评论(5) 推荐(2) 编辑
转自水木NLP,duckyaya版主总结的关于文本分类的若干资源。
摘要:发信人: duckyaya (逃亡), 信区: NLP标 题: Re: 提供开源中文新闻文本分类语料库发信站: 水木社区 (Sun Sep 12 00:35:17 2010), 站内我以前也整理过一些http://www.scholarpedia.org/article/Text_categorization 涉及到文本分类的基本概念,存在的问题以及方向。http://www.cs.technio... 阅读全文
posted @ 2010-09-12 12:22 finallyly 阅读(969) 评论(0) 推荐(0) 编辑
献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二
摘要:注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar(注意:有网友提出要MSSQL2000数据库的MDF版本数据,这样在2000以上的数据库上可以进行附加。所以给出MDF,LDF格式的语料库下载地址:MDF版本语料库下载地址)语 阅读全文
posted @ 2010-09-11 19:28 finallyly 阅读(12263) 评论(23) 推荐(9) 编辑
献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一
摘要:作者:finallyliuyu(注意:转载请标明作者和出处)献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二题记: 做研究,尤其是基于统计学方法的研究,常常需要大量的训练数据。详细这些东西在读研究生不难得到。在自然语言处理公司工作的工作人员也不难得到。但是这些东西属于机密,实验室和公司是不会轻易外传的。所以对于业余的爱好者来说,比如园子里的(蛙蛙,overred)是很难得到详实的语料库的... 阅读全文
posted @ 2010-09-10 23:03 finallyly 阅读(12237) 评论(7) 推荐(4) 编辑