乐哈哈旅游视频网:
随笔 - 186  文章 - 1  评论 - 149  阅读 - 93万

随笔分类 -  Search Engine

上一页 1 2 3 4 5 下一页
crawler/index/indexing/cluster
大规模测试开始了~~~
摘要:SE系统前期数据采集和处理工作基本完成,几分钟后将进行第二次大规模数据采集! 期待成功!! ********************************************* XDSE RAW data Crawling.... Begin at:Wed, 02 May 2007 23:34:11 GMT closed all threads Finished to Crawling We... 阅读全文
posted @ 2007-05-07 09:01 riky 阅读(265) 评论(0) 推荐(0) 编辑
$$$$方正GBK字库内码表$$$$
摘要:■ 说明:GBK字库共分为5部分,其中GBK/1和GBK/5为符号部分,GBK/2为与GB2312兼容的国标汉字部分,GBK/3和GBK/4为扩展汉字部分。 表中空缺处为GBK中没有编码的字位。 ■ GBK/1:符号部分... 阅读全文
posted @ 2007-04-20 09:16 riky 阅读(10593) 评论(2) 推荐(0) 编辑
$$$$GB2312-80区位编码表$$$$
摘要:共包含682个符号(第01-09区)、6763个汉字(第16-87区) (以下第01—09区为国标符号,第10-15区为空区) 国标第01区 ... 阅读全文
posted @ 2007-04-20 09:12 riky 阅读(11394) 评论(0) 推荐(0) 编辑
分词程序启示之2
摘要:GB 2312 来自 维客 Jump to: navigation, search GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又稱為GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于大陆;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。 GB 2312标准共收... 阅读全文
posted @ 2007-04-19 15:08 riky 阅读(385) 评论(0) 推荐(0) 编辑
汉字编码启发之1
摘要:'tuenhai所用获得汉字或字符对应的区位符Function quwei(ByVal x As String) As String 'x = Asc(x) 'Asc 返回输入字符的码位或字符代码。对于单字节字符集 (SBCS),返回值范围为 0 到 255;对于双字节字符集 (DBCS),返回值范围为 -32768 到 32767。对于单字节 ASCII 字符的图表,请参见 ASCII 字符代码... 阅读全文
posted @ 2007-04-19 15:06 riky 阅读(587) 评论(0) 推荐(0) 编辑
分词不能稳定的工作!!!乱了~~~
摘要:这段时间一直忙于分词程序的集成工作,其实有时候做集成比自己看理论再自己写要男的多!!好不容易可以做分子了但是却不稳定。~~气煞我了~!!!经过具体的研究和实现~~终于对编码统一有了具体的实现!接着是对非汉字编码的剔除!使之能正常稳定的工作!不出现段错误!@即主要做的连个工作为:》UTF等编码的GB转化》非汉字编码的剔除 阅读全文
posted @ 2007-04-19 15:06 riky 阅读(269) 评论(0) 推荐(0) 编辑
HTTP数据包头解析---之温故而知新!
摘要:[转]HTTP请求模型和头信息参考 参考: http://blog.csdn.net/baggio785/archive/2006/04/13/661410.aspx模型: http://blog.csdn.net/baggio785/archive/2006/04/13/661412.aspx HTTP请求模型 一、连接至Web服务器一个客户端应用(如Web浏览器)打开到Web服务器的HTTP... 阅读全文
posted @ 2007-04-09 16:36 riky 阅读(24282) 评论(2) 推荐(3) 编辑
Crawler首次大规模爬行成功!
摘要:无故障,非常稳健的完成了我对特定68所网络学院的抓取!系统开始抓取时间:2007年4月2日22:28: 22系统结束抓取时间:2007年4月3日01:53:05系统历时:3小时24分33秒抓取WEB页面:1,527,707,565byte总节点数(为纯文本页面,包含动态页面不含重复):89,388个其他链接信息为统计再内! 阅读全文
posted @ 2007-04-03 10:34 riky 阅读(711) 评论(2) 推荐(0) 编辑
ASCII对照表
摘要:ASCII table and description ASCII stands for American Standard Code for Information Interchange. Computers can only understand numbers, so an ASCII code is the ... 阅读全文
posted @ 2007-03-28 16:26 riky 阅读(4468) 评论(0) 推荐(1) 编辑
corpus linguistics
摘要:corpus 语料库关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;什么是第三代语料库?苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形... 阅读全文
posted @ 2007-03-26 08:17 riky 阅读(622) 评论(0) 推荐(0) 编辑
一个关于vector比较的例子~
摘要:#include #include #include #include using namespace std; void main() { vectorStrArr; StrArr.push_back("xyz"); StrArr.push_back("ok"); StrArr.p... 阅读全文
posted @ 2007-03-24 21:43 riky 阅读(1299) 评论(0) 推荐(0) 编辑
文本聚类2
摘要:A.问题背景 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。 文本聚类(Text clustering): 将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而... 阅读全文
posted @ 2007-03-20 19:49 riky 阅读(3491) 评论(2) 推荐(0) 编辑
基于文本的信息自动聚类
摘要:基于文本的信息自动聚类的算法很多,我以前介绍过一些,比较流行的算法有我以前提到的KNN和SVM,在过去的一段时间里,空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法,能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现,希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法简并算法是指在文本信息空间内寻... 阅读全文
posted @ 2007-03-20 19:48 riky 阅读(1526) 评论(0) 推荐(0) 编辑
国内语料库建设一览表
摘要:国内语料库建设一览表 类型 语料库名称及大小 建设单位 英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) ... 阅读全文
posted @ 2007-03-16 15:36 riky 阅读(6337) 评论(3) 推荐(0) 编辑
Lucene 索引部分核心~
摘要:Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如... 阅读全文
posted @ 2007-03-15 22:35 riky 阅读(622) 评论(0) 推荐(0) 编辑
看看一个使用索引后查询速度提升的例子
摘要:创建索引前: * 查询指定单号用时:0.15秒* XS001646)关闭单据表头记录集用时:0.121秒* SQL明细查询语句:SELECT C.ID AS SPDM,C.ZBM2 AS ZBM,C.SPMC3 AS SPMC,C.SPGG4 AS SPGG,C.SPDW5 AS SPDW,'' AS XH,ROUND(A.SPBZ8,4) AS SPBZ,ROUND(A.SPJS9,4) AS ... 阅读全文
posted @ 2007-03-14 20:12 riky 阅读(477) 评论(0) 推荐(0) 编辑
Linux读取文件的哦内存
摘要:这里是一个很好的读取文件到内存的例子! #include #include void main(){ FILE *fp; long int size; char * buff; if ((fp=fopen("in.db","rb"))==NULL){ printf("cannot open file\n"); exit(1); } ... 阅读全文
posted @ 2007-03-12 15:49 riky 阅读(1048) 评论(0) 推荐(0) 编辑
分词系统研究完整版
摘要:ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的... 阅读全文
posted @ 2007-03-09 15:00 riky 阅读(3953) 评论(0) 推荐(1) 编辑
ICTCLAS分词系统简介2
摘要:ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(... 阅读全文
posted @ 2007-03-09 14:39 riky 阅读(3327) 评论(2) 推荐(0) 编辑
ICTCLAS解析
摘要:ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。 可是目前该版本的ICTCLAS并没有提供完善的文档,所以阅读起来有一定的难度,所幸网上可以找到一些对ICTCLAS进行代码分析... 阅读全文
posted @ 2007-03-09 14:26 riky 阅读(2236) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

乐哈哈旅游视频网:
点击右上角即可分享
微信分享提示