02 2015 档案

【python】NLTK好文
摘要:From:http://m.blog.csdn.net/blog/huyoo/12188573nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python... 阅读全文

posted @ 2015-02-27 17:05 colipso 阅读(748) 评论(0) 推荐(0) 编辑

【文本挖掘】模拟退火英文分词
摘要:大概原理是找到文本中重复项最多的文本作为词典,代价函数为词典的累计词长和文本分词数之和,迭代找到代价函数最小值所对应的词典和分词结果。方法简单,跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ... 阅读全文

posted @ 2015-02-15 14:37 colipso 阅读(281) 评论(0) 推荐(0) 编辑

【python】matplotlib中文乱码问题
摘要:http://www.pythoner.com/200.html改matplotlibrc文件进入Python安装目录下的Lib\site-packages\matplotlib\mpl-data目录,打开matplotlibrc文件,删除font.family和font.sans-serif两行前... 阅读全文

posted @ 2015-02-12 21:00 colipso 阅读(303) 评论(0) 推荐(0) 编辑

【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
摘要:好文 markhttp://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9... 阅读全文

posted @ 2015-02-10 17:59 colipso 阅读(468) 评论(0) 推荐(0) 编辑

【文本挖掘】词性标注记法
摘要:ICTCLAS 汉语词性标注集汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码... 阅读全文

posted @ 2015-02-10 17:54 colipso 阅读(942) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示