乐哈哈旅游视频网:
随笔 - 186  文章 - 1  评论 - 149  阅读 - 93万
03 2007 档案
ASCII对照表
摘要:ASCII table and description ASCII stands for American Standard Code for Information Interchange. Computers can only understand numbers, so an ASCII code is the ... 阅读全文
posted @ 2007-03-28 16:26 riky 阅读(4465) 评论(0) 推荐(1) 编辑
corpus linguistics
摘要:corpus 语料库关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;什么是第三代语料库?苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形... 阅读全文
posted @ 2007-03-26 08:17 riky 阅读(621) 评论(0) 推荐(0) 编辑
一个关于vector比较的例子~
摘要:#include #include #include #include using namespace std; void main() { vectorStrArr; StrArr.push_back("xyz"); StrArr.push_back("ok"); StrArr.p... 阅读全文
posted @ 2007-03-24 21:43 riky 阅读(1299) 评论(0) 推荐(0) 编辑
文本聚类2
摘要:A.问题背景 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。 文本聚类(Text clustering): 将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而... 阅读全文
posted @ 2007-03-20 19:49 riky 阅读(3489) 评论(2) 推荐(0) 编辑
基于文本的信息自动聚类
摘要:基于文本的信息自动聚类的算法很多,我以前介绍过一些,比较流行的算法有我以前提到的KNN和SVM,在过去的一段时间里,空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法,能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现,希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法简并算法是指在文本信息空间内寻... 阅读全文
posted @ 2007-03-20 19:48 riky 阅读(1526) 评论(0) 推荐(0) 编辑
国内语料库建设一览表
摘要:国内语料库建设一览表 类型 语料库名称及大小 建设单位 英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) ... 阅读全文
posted @ 2007-03-16 15:36 riky 阅读(6333) 评论(3) 推荐(0) 编辑
Lucene 索引部分核心~
摘要:Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如... 阅读全文
posted @ 2007-03-15 22:35 riky 阅读(622) 评论(0) 推荐(0) 编辑
看看一个使用索引后查询速度提升的例子
摘要:创建索引前: * 查询指定单号用时:0.15秒* XS001646)关闭单据表头记录集用时:0.121秒* SQL明细查询语句:SELECT C.ID AS SPDM,C.ZBM2 AS ZBM,C.SPMC3 AS SPMC,C.SPGG4 AS SPGG,C.SPDW5 AS SPDW,'' AS XH,ROUND(A.SPBZ8,4) AS SPBZ,ROUND(A.SPJS9,4) AS ... 阅读全文
posted @ 2007-03-14 20:12 riky 阅读(477) 评论(0) 推荐(0) 编辑
Linux读取文件的哦内存
摘要:这里是一个很好的读取文件到内存的例子! #include #include void main(){ FILE *fp; long int size; char * buff; if ((fp=fopen("in.db","rb"))==NULL){ printf("cannot open file\n"); exit(1); } ... 阅读全文
posted @ 2007-03-12 15:49 riky 阅读(1047) 评论(0) 推荐(0) 编辑
分词系统研究完整版
摘要:ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的... 阅读全文
posted @ 2007-03-09 15:00 riky 阅读(3952) 评论(0) 推荐(1) 编辑
ICTCLAS分词系统简介2
摘要:ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(... 阅读全文
posted @ 2007-03-09 14:39 riky 阅读(3326) 评论(2) 推荐(0) 编辑
ICTCLAS解析
摘要:ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。 可是目前该版本的ICTCLAS并没有提供完善的文档,所以阅读起来有一定的难度,所幸网上可以找到一些对ICTCLAS进行代码分析... 阅读全文
posted @ 2007-03-09 14:26 riky 阅读(2236) 评论(0) 推荐(0) 编辑
中文分词
摘要:ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 2006-11-09 11:01 ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38 中科院分词系统概述 这几天看完... 阅读全文
posted @ 2007-03-07 17:57 riky 阅读(890) 评论(0) 推荐(0) 编辑
数据本类
摘要:摘要 本文介绍了在数据挖掘中数据分类的几个主要分类方法,包括:贝叶斯分类、决策树分类、感知器分类,及其各自的优势与劣势。并对于分类问题中出现的高维效应,介绍了两种通用的解决办法。 关键词 数据分类 贝叶斯分类 决策树分类 感知器分类 引言 数据分类是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生... 阅读全文
posted @ 2007-03-07 17:55 riky 阅读(330) 评论(0) 推荐(0) 编辑
生活贴士
摘要:46条足以震撼你的生活常识 很久没有更新了,随便弄个凑数一下..... 1、常吃宵夜.会得胃癌. 因为胃得不到休息 2、一个星期只能吃四颗蛋.吃太多.对身体不好 3、鸡屁股含有致癌物, 不要吃较好 4、饭后吃水果是错误的观念. 应是饭前吃水果 5、女生月经来时.不要喝绿茶. 反正茶类不要喝就对了.多吃可以补血的东西 6、喝豆浆时不要加鸡蛋及糖. 也不要喝太多 7、空腹时不要吃蕃茄, 最好饭后吃 ... 阅读全文
posted @ 2007-03-05 09:58 riky 阅读(303) 评论(0) 推荐(0) 编辑
网页流媒体播放器
摘要:页面嵌入式流媒体播放器 ... 阅读全文
posted @ 2007-03-04 11:02 riky 阅读(21308) 评论(3) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

乐哈哈旅游视频网:
点击右上角即可分享
微信分享提示