ASCII对照表
摘要:ASCII table and description ASCII stands for American Standard Code for Information Interchange. Computers can only understand numbers, so an ASCII code is the ...
阅读全文
posted @
2007-03-28 16:26
riky
阅读(4465)
推荐(1) 编辑
corpus linguistics
摘要:corpus 语料库关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;什么是第三代语料库?苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形...
阅读全文
posted @
2007-03-26 08:17
riky
阅读(621)
推荐(0) 编辑
一个关于vector比较的例子~
摘要:#include #include #include #include using namespace std; void main() { vectorStrArr; StrArr.push_back("xyz"); StrArr.push_back("ok"); StrArr.p...
阅读全文
posted @
2007-03-24 21:43
riky
阅读(1299)
推荐(0) 编辑
文本聚类2
摘要:A.问题背景 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。 文本聚类(Text clustering): 将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而...
阅读全文
posted @
2007-03-20 19:49
riky
阅读(3489)
推荐(0) 编辑
基于文本的信息自动聚类
摘要:基于文本的信息自动聚类的算法很多,我以前介绍过一些,比较流行的算法有我以前提到的KNN和SVM,在过去的一段时间里,空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法,能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现,希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法简并算法是指在文本信息空间内寻...
阅读全文
posted @
2007-03-20 19:48
riky
阅读(1526)
推荐(0) 编辑
国内语料库建设一览表
摘要:国内语料库建设一览表 类型 语料库名称及大小 建设单位 英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) ...
阅读全文
posted @
2007-03-16 15:36
riky
阅读(6333)
推荐(0) 编辑
Lucene 索引部分核心~
摘要:Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如...
阅读全文
posted @
2007-03-15 22:35
riky
阅读(622)
推荐(0) 编辑
看看一个使用索引后查询速度提升的例子
摘要:创建索引前: * 查询指定单号用时:0.15秒* XS001646)关闭单据表头记录集用时:0.121秒* SQL明细查询语句:SELECT C.ID AS SPDM,C.ZBM2 AS ZBM,C.SPMC3 AS SPMC,C.SPGG4 AS SPGG,C.SPDW5 AS SPDW,'' AS XH,ROUND(A.SPBZ8,4) AS SPBZ,ROUND(A.SPJS9,4) AS ...
阅读全文
posted @
2007-03-14 20:12
riky
阅读(477)
推荐(0) 编辑
Linux读取文件的哦内存
摘要:这里是一个很好的读取文件到内存的例子! #include #include void main(){ FILE *fp; long int size; char * buff; if ((fp=fopen("in.db","rb"))==NULL){ printf("cannot open file\n"); exit(1); } ...
阅读全文
posted @
2007-03-12 15:49
riky
阅读(1047)
推荐(0) 编辑
分词系统研究完整版
摘要:ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的...
阅读全文
posted @
2007-03-09 15:00
riky
阅读(3952)
推荐(1) 编辑
ICTCLAS分词系统简介2
摘要:ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(...
阅读全文
posted @
2007-03-09 14:39
riky
阅读(3326)
推荐(0) 编辑
ICTCLAS解析
摘要:ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。 可是目前该版本的ICTCLAS并没有提供完善的文档,所以阅读起来有一定的难度,所幸网上可以找到一些对ICTCLAS进行代码分析...
阅读全文
posted @
2007-03-09 14:26
riky
阅读(2236)
推荐(0) 编辑
中文分词
摘要:ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 2006-11-09 11:01 ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38 中科院分词系统概述 这几天看完...
阅读全文
posted @
2007-03-07 17:57
riky
阅读(890)
推荐(0) 编辑
数据本类
摘要:摘要 本文介绍了在数据挖掘中数据分类的几个主要分类方法,包括:贝叶斯分类、决策树分类、感知器分类,及其各自的优势与劣势。并对于分类问题中出现的高维效应,介绍了两种通用的解决办法。 关键词 数据分类 贝叶斯分类 决策树分类 感知器分类 引言 数据分类是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生...
阅读全文
posted @
2007-03-07 17:55
riky
阅读(330)
推荐(0) 编辑
生活贴士
摘要:46条足以震撼你的生活常识 很久没有更新了,随便弄个凑数一下..... 1、常吃宵夜.会得胃癌. 因为胃得不到休息 2、一个星期只能吃四颗蛋.吃太多.对身体不好 3、鸡屁股含有致癌物, 不要吃较好 4、饭后吃水果是错误的观念. 应是饭前吃水果 5、女生月经来时.不要喝绿茶. 反正茶类不要喝就对了.多吃可以补血的东西 6、喝豆浆时不要加鸡蛋及糖. 也不要喝太多 7、空腹时不要吃蕃茄, 最好饭后吃 ...
阅读全文
posted @
2007-03-05 09:58
riky
阅读(303)
推荐(0) 编辑