2011 年 8月 29 日随笔档案 - 黄聪

黄聪：ICTCLAS分词系统研究（一）（转）

摘要： ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，难能可贵的是该版的Free版开放了源代码，为我们很多初学者提供了宝贵的学习材料。但有一点不完美的是，该源代码没有配套的文档，阅读起来可能有一定的障碍，尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的忘的几乎一干二净了.但语言这东西,基本的东西都相通的,况且Java也是在C/C++的基础上形成的,有一定的相似处.阅读一遍源代码,主要的语法都应该不成问题了.虽然在ICTCLAS的系统中没有完整的文档说明,但是我. 阅读全文

posted @ 2011-08-29 21:34 黄聪阅读(870) 评论(0) 推荐(0) 编辑

黄聪：ICTCLAS学习文档

摘要：接口文档ICTCLAS2011接口文档ICTCLAS2009接口文档ICTPOS3.0 词性标注集相关论文Chinese Name Entity Recognition Using Role ModelHHMM-based Chinese Lexical Analyzer ICTCLASAutomatic Recognition of Chinese Unknown Words基于多层隐马模型的汉语词法分析研究基于N-最短路径方法的中文词语粗分模型基于角色标注的中国人名自动识别研究基于角色标注的中文机构名识别其他ICTCLAS学习笔记计算所汉语词性标记集(ICTPOS3.0)N-Gram及其. 阅读全文

posted @ 2011-08-29 21:05 黄聪阅读(1255) 评论(0) 推荐(1) 编辑

黄聪：Python+NLTK自然语言处理学习（三）：计算机自动学习机制

摘要：本文演示使用NLTK让计算机学习如何通过名字识别性别。1、导入NLTK：import nltkfrom nltk.book import *2、定义学习方法def gender_features(word): return {'last_letter':word[-1]}3、导入学习的姓名-性别名单：from nltk.corpus import namesimport randomnames=([(name,'male') for name in names.words('male.txt')] + [(name,'female' 阅读全文

posted @ 2011-08-29 18:30 黄聪阅读(6525) 评论(0) 推荐(0) 编辑

黄聪：Python查看文章中每个单词的出现频率

摘要： NLTK中的FreqDist方法可以查看文章中每个单词出现的频率。阅读全文

posted @ 2011-08-29 15:59 黄聪阅读(1754) 评论(0) 推荐(1) 编辑

黄聪：Python网站采集功能（多线程的采集、WDPYSPIDER类、pycurl）

摘要： Python1import urllib2urlItem = urllib.urlopen("http://www.baidu.com")3htmSource = urlItem.read()4urlItem.close()5print htmSourcepycurlhttp://pycurl.sourceforge.net/download/http://pycurl.sourceforge.net/doc/curlobject.htmlPython01import pycurl02c = pycurl.Curl()03c.setopt(pycurl.URL, " 阅读全文

posted @ 2011-08-29 15:38 黄聪阅读(10037) 评论(1) 推荐(1) 编辑

黄聪：Python 字符串操作（string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等）

摘要：去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2print sStr1查找字符#strchr(sStr1,sStr2)# < 0 为未找到sStr1 = 'strchr&# 阅读全文

posted @ 2011-08-29 15:35 黄聪阅读(853181) 评论(7) 推荐(47) 编辑

黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）

摘要：一、similar用来识别文章中和搜索词相似的词语，可以用在搜索引擎中的相关度识别功能中。text1.similar("monstrous")查询出了text1中与monstrous相关的所有词语：二、common_contexts用来识别2个关键词相似的词语。text2.common_contexts(["monstrous","very"])三、generate用来自动生成文章。text3.generate()四、len可以用于判断重复词密度from __future__ import divisionlen(text3) / l 阅读全文

posted @ 2011-08-29 12:29 黄聪阅读(17973) 评论(4) 推荐(0) 编辑

黄聪：Python+NLTK自然语言处理学习（一）：环境搭建

摘要：最近开始学习Python+NLTK自然语言处理，在此分享自己的学习经验，因为是初学，肯定有很多很多不懂的地方，发布此文章绝非为了显示自己的水平，而是因为网络上对NLTK的资料实在太少了，我就想分享一下自己的心得，也希望能够得到更多高手的指点，希望高手们发现不对的地方耐心指点，切勿针锋相对，这样会打击小弟的学习动力的，呵呵～好了，开始吧。一、到NLTK的官网下载Python2.66（虽然Python已经到3.0了，但是2.x的比较稳定，兼容2.x的软件也比较多一些）、PyYAML和NLTK。下载地址：http://www.nltk.org/download二、讲这些都安装好，然后运行Python 阅读全文

posted @ 2011-08-29 11:19 黄聪阅读(59822) 评论(13) 推荐(9) 编辑

黄聪

公告