Search Engine - 随笔分类(第2页) - riky

大规模测试开始了~~~

摘要：SE系统前期数据采集和处理工作基本完成，几分钟后将进行第二次大规模数据采集！期待成功！！ ********************************************* XDSE RAW data Crawling.... Begin at:Wed, 02 May 2007 23:34:11 GMT closed all threads Finished to Crawling We... 阅读全文

posted @ 2007-05-07 09:01 riky 阅读(265) 评论(0) 推荐(0) 编辑

$$$$方正GBK字库内码表$$$$

摘要：■ 说明：GBK字库共分为5部分，其中GBK/1和GBK/5为符号部分，GBK/2为与GB2312兼容的国标汉字部分，GBK/3和GBK/4为扩展汉字部分。表中空缺处为GBK中没有编码的字位。 ■ GBK/1:符号部分... 阅读全文

posted @ 2007-04-20 09:16 riky 阅读(10593) 评论(2) 推荐(0) 编辑

$$$$GB2312-80区位编码表$$$$

摘要：共包含682个符号（第01-09区）、6763个汉字（第16-87区）（以下第01—09区为国标符号，第10-15区为空区）国标第01区 ... 阅读全文

posted @ 2007-04-20 09:12 riky 阅读(11394) 评论(0) 推荐(0) 编辑

分词程序启示之2

摘要：GB 2312 来自维客 Jump to: navigation, search GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又稱為GB0，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于大陆；新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。 GB 2312标准共收... 阅读全文

posted @ 2007-04-19 15:08 riky 阅读(385) 评论(0) 推荐(0) 编辑

汉字编码启发之1

摘要：'tuenhai所用获得汉字或字符对应的区位符Function quwei(ByVal x As String) As String 'x = Asc(x) 'Asc 返回输入字符的码位或字符代码。对于单字节字符集 (SBCS)，返回值范围为 0 到 255；对于双字节字符集 (DBCS)，返回值范围为 -32768 到 32767。对于单字节 ASCII 字符的图表，请参见 ASCII 字符代码... 阅读全文

posted @ 2007-04-19 15:06 riky 阅读(587) 评论(0) 推荐(0) 编辑

分词不能稳定的工作！！！乱了~~~

摘要：这段时间一直忙于分词程序的集成工作，其实有时候做集成比自己看理论再自己写要男的多！！好不容易可以做分子了但是却不稳定。~~气煞我了~！！！经过具体的研究和实现~~终于对编码统一有了具体的实现！接着是对非汉字编码的剔除！使之能正常稳定的工作！不出现段错误！@即主要做的连个工作为:》UTF等编码的GB转化》非汉字编码的剔除阅读全文

posted @ 2007-04-19 15:06 riky 阅读(269) 评论(0) 推荐(0) 编辑

HTTP数据包头解析---之温故而知新！

摘要：[转]HTTP请求模型和头信息参考参考: http://blog.csdn.net/baggio785/archive/2006/04/13/661410.aspx模型: http://blog.csdn.net/baggio785/archive/2006/04/13/661412.aspx HTTP请求模型一、连接至Web服务器一个客户端应用（如Web浏览器）打开到Web服务器的HTTP... 阅读全文

posted @ 2007-04-09 16:36 riky 阅读(24282) 评论(2) 推荐(3) 编辑

Crawler首次大规模爬行成功！

摘要：无故障，非常稳健的完成了我对特定68所网络学院的抓取！系统开始抓取时间：2007年4月2日22：28: 22系统结束抓取时间：2007年4月3日01：53：05系统历时：3小时24分33秒抓取WEB页面：1，527，707，565byte总节点数（为纯文本页面，包含动态页面不含重复）：89，388个其他链接信息为统计再内！阅读全文

posted @ 2007-04-03 10:34 riky 阅读(711) 评论(2) 推荐(0) 编辑

ASCII对照表

摘要：ASCII table and description ASCII stands for American Standard Code for Information Interchange. Computers can only understand numbers, so an ASCII code is the ... 阅读全文

posted @ 2007-03-28 16:26 riky 阅读(4468) 评论(0) 推荐(1) 编辑

corpus linguistics

摘要：corpus 语料库关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;什么是第三代语料库?苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形... 阅读全文

posted @ 2007-03-26 08:17 riky 阅读(622) 评论(0) 推荐(0) 编辑

一个关于vector比较的例子~

摘要：#include #include #include #include using namespace std; void main() { vectorStrArr; StrArr.push_back("xyz"); StrArr.push_back("ok"); StrArr.p... 阅读全文

posted @ 2007-03-24 21:43 riky 阅读(1299) 评论(0) 推荐(0) 编辑

文本聚类2

摘要：A.问题背景聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习”（unsupervised learning）过程，即聚类算法不需要“教师”的指导，不需要提供训练数据，它倾向于数据的自然划分。文本聚类（Text clustering）: 将文本集合分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而... 阅读全文

posted @ 2007-03-20 19:49 riky 阅读(3491) 评论(2) 推荐(0) 编辑

基于文本的信息自动聚类

摘要：基于文本的信息自动聚类的算法很多，我以前介绍过一些，比较流行的算法有我以前提到的KNN和SVM，在过去的一段时间里，空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法，能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现，希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法简并算法是指在文本信息空间内寻... 阅读全文

posted @ 2007-03-20 19:48 riky 阅读(1526) 评论(0) 推荐(0) 编辑

国内语料库建设一览表

摘要：国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库（书面语及口语）中国学习者语料库 CLEC（100万） ... 阅读全文

posted @ 2007-03-16 15:36 riky 阅读(6337) 评论(3) 推荐(0) 编辑

Lucene 索引部分核心~

摘要：Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：0）设有两篇文章1和2文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为：He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的，首先我们要取得这两篇文章的关键词，通常我们需要如... 阅读全文

posted @ 2007-03-15 22:35 riky 阅读(622) 评论(0) 推荐(0) 编辑

看看一个使用索引后查询速度提升的例子

摘要：创建索引前： * 查询指定单号用时：0.15秒* XS001646）关闭单据表头记录集用时：0.121秒* SQL明细查询语句：SELECT C.ID AS SPDM,C.ZBM2 AS ZBM,C.SPMC3 AS SPMC,C.SPGG4 AS SPGG,C.SPDW5 AS SPDW,'' AS XH,ROUND(A.SPBZ8,4) AS SPBZ,ROUND(A.SPJS9,4) AS ... 阅读全文

posted @ 2007-03-14 20:12 riky 阅读(477) 评论(0) 推荐(0) 编辑

Linux读取文件的哦内存

摘要：这里是一个很好的读取文件到内存的例子！ #include #include void main(){ FILE *fp; long int size; char * buff; if ((fp=fopen("in.db","rb"))==NULL){ printf("cannot open file\n"); exit(1); } ... 阅读全文

posted @ 2007-03-12 15:49 riky 阅读(1048) 评论(0) 推荐(0) 编辑

分词系统研究完整版

摘要：ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，难能可贵的是该版的Free版开放了源代码，为我们很多初学者提供了宝贵的学习材料。但有一点不完美的是，该源代码没有配套的文档，阅读起来可能有一定的障碍，尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的... 阅读全文

posted @ 2007-03-09 15:00 riky 阅读(3953) 评论(0) 推荐(1) 编辑

ICTCLAS分词系统简介2

摘要：ICTCLAS分词的总体流程包括：1）初步分词；2）词性标注；3）人名、地名识别；4）重新分词；5）重新词性标注这五步。就第一步分词而言，又细分成：1）原子切分；2）找出原子之间所有可能的组词方案；3）N-最短路径中文词语粗分三步。在所有内容中，词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中，常用的词典包括coreDict.dct（词典库）、BigramDict.dct（... 阅读全文

posted @ 2007-03-09 14:39 riky 阅读(3327) 评论(2) 推荐(0) 编辑

ICTCLAS解析

摘要：ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，该版的Free版开放了源代码，为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。可是目前该版本的ICTCLAS并没有提供完善的文档，所以阅读起来有一定的难度，所幸网上可以找到一些对ICTCLAS进行代码分析... 阅读全文

posted @ 2007-03-09 14:26 riky 阅读(2236) 评论(0) 推荐(0) 编辑

随笔分类 - Search Engine

搜索

常用链接

最新随笔

随笔分类 (144)

随笔档案 (186)

相册 (2)

my faverate

阅读排行榜

评论排行榜

推荐排行榜

最新评论