随笔分类 -  搜索引擎

搜索引擎
摘要:实时搜索之微博 [文章作者:孙立 链接:http://www.cnblogs.com/sunli/更新时间:2010-08-18] 8月14日下午参加了infoq和百度共同举办的技术沙龙,主题是“走进搜索核心技术”,这也是我第一次参加infoq的聚会,感觉非常不错,不但免费,而且内容质量非常高,活动形式也非常的好,不幸的是回来后感冒发烧了。最后的OpenSpace(开放空间... 阅读全文
posted @ 2010-08-18 13:39 草屋主人 阅读(5190) 评论(2) 推荐(1) 编辑
摘要:汉语转拼音-----带音调和多音字识别1、 背景几年前就在网上看到过汉字转拼音的程序,大都就是按汉字的编码转换,单字对应的算法实现的。在网上搜索“汉字转拼音”的文章可以搜索到很多,基本都是同一个算法,各种语言的移植版本都有,但是都有一个共同的缺点,不能支持多音字。比如“重庆”,“重量”这样的词语就不能正确的识别,这在很多应用中会是一个非常大的缺陷,更不用说支持音调。(来自http://sunli.... 阅读全文
posted @ 2007-11-21 15:31 草屋主人 阅读(25074) 评论(42) 推荐(1) 编辑
摘要:已经弄了几天了,今天测试了一下,在服务器上下载了我的一个歌词数据库,有90M左右,17万数据.下午我把把他索引了10多万一点记录,索引文件46M.在winforms下做搜索测试一般需要100MS,不过在程序第一次加载需要20S左右!主要是加载中文分词的分词数据库! 晚上又把搜索转到asp.net上做测试,一样,在编译后第一次打开要20S左右,不过以后就快多了,比winfor... 阅读全文
posted @ 2005-11-15 20:23 草屋主人 阅读(1179) 评论(3) 推荐(0) 编辑
摘要:开始看了下java的,弄不太明白,没学过java,后来找了了.net的,主要是研究下dotlucene,由于刚刚接触c#,对这样一个开源的项目研究还是有点困难,不过我比较喜欢搜索类的,所以还是看了起来,看了大量的资料,英文的和中文的,现在终于是调试成功了,而且加了一个基于词表的中文分词。 现在还有Highlighter高亮显示的没弄出来,正在研究中! 还有就是自己写的html2... 阅读全文
posted @ 2005-11-13 18:55 草屋主人 阅读(773) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示