我要去桂林 - 博客园

一种面向搜索引擎的网页分块、切片的原理，实现和演示

摘要：一种面向搜索引擎的网页分块、切片的原理，实现和演示最近看到 2005 年的全国搜索引擎和网上信息挖掘学术研讨会上华南木棉信息检索的队长欧健文的华南木棉信息检索的ppt。很有启发。于是自己也根据自己的理解准备做一个实现。实现前提假设： 1、网页分块切分的基本单位是html中的table , div 等标签（目前版本只支持：table ,div 标签）。 2、网页分块切片识别依赖于相似u... 阅读全文

posted @ 2005-11-28 10:16 我要去桂林阅读(1193) 评论(1) 推荐(0) 编辑

C#：昨天，今天和明天：和 Anders Hejlsberg 座谈，第一部分

摘要： C#：昨天，今天和明天：和 Anders Hejlsberg 座谈，第一部分源贴地址：C#: Yesterday, today, and tomorrow作者：John Osborn10/17/2005翻译：我要去桂林Anders Hejlsberg 在1996年加入微软，开始是Visual J++ 和 Windows Foundation Classes 的架构师。Hejlsberg 是目前微软... 阅读全文

posted @ 2005-11-03 09:04 我要去桂林阅读(502) 评论(0) 推荐(0) 编辑

C#：昨天，今天和明天：和 Anders Hejlsberg 座谈，第二部分

摘要： C#：昨天，今天和明天：和 Anders Hejlsberg 座谈，第二部分源贴地址：C#: Yesterday, today, and tomorrow作者：John Osborn10/17/2005翻译：我要去桂林 Osborn：回到和语言相关的问题，我现在还是想说说LINQ。微软 Visual Stuido .NET 的产品经理 Tony Goodhew 在一次访谈中说过，微软的研究表明越来... 阅读全文

posted @ 2005-11-03 09:04 我要去桂林阅读(533) 评论(1) 推荐(0) 编辑

一种快速的未登陆词识别方法(原理和实现)

摘要：一种快速的未登陆词识别方法(原理和实现) 最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放. 但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉. 算法的假设: 1. 未登陆词是由单字组成的; 2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词; 测试文章: 最近电视剧大长今很火,我就选取了介绍... 阅读全文

posted @ 2005-10-12 16:18 我要去桂林阅读(663) 评论(1) 推荐(0) 编辑

什么是垂直搜索引擎（之二）

摘要：什么是垂直搜索引擎（之二）垂直搜索引擎的三个特点：1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点：比如：找工作的搜索引擎 www.deepdo.com 的数据来源于：www.51job.com , www.zhaoping.com , www.chinahr.com 等等；股票搜索引擎 www.macd.cn 的数据来源于： www.jrj.com.cn , www.gutx.co... 阅读全文

posted @ 2005-08-29 16:06 我要去桂林阅读(1076) 评论(1) 推荐(0) 编辑

ASP.NET 2.0 缓存翻译草稿

摘要： ASP.NET 2.0 缓存翻译草稿原文：http://www.codeproject.com/useritems/Caching_Mechanism.asp命名空间： System.Web.Caching ,这个空间是ASP.NET的基础结构中的重要部分，比如：session就是存储在cache中的。Cache对象有两种级别的访问控制：public和private的。private是被系统组件保... 阅读全文

posted @ 2005-08-22 17:52 我要去桂林阅读(551) 评论(0) 推荐(0) 编辑

Boyer-moor 字符串搜索算法

摘要： Boyer-moor 字符串搜索算法最近因为需要从大量的文本中检索字符串，于是想比较一下java jdk提供的indexof 算法，和其他字符串搜索算法的效率。字符串搜索算法有多种，其中比较有名的是boyer-moore算法。在Moore 先生的主页上有关于 boyer-moore算法的详细介绍。 moore先生介绍的通俗易懂，相信大家都能看明白。同时还看到：Boyer-Moore串查找JAV... 阅读全文

posted @ 2005-06-23 23:25 我要去桂林阅读(875) 评论(0) 推荐(0) 编辑

多么乐alexa网站流量数据报告助手

摘要：多么乐alexa网站流量数据报告助手为了您方便的获取您所关心网站的alexa网站流量数据，多么乐特的为您制作了这款工具，使用方法很简单，只要按照要求输入网站地址和您的邮件地址并制定邮件发送的时间，我们就会定期给您发送alaxe统计数据。在以后我们还会对数据进行进一步分析，提供更加满意的服务！Alaxe排名百万用户到达率用户浏览页数15627508.0相关连接：Alaxe 网站数据助手阅读全文

posted @ 2005-06-22 08:43 我要去桂林阅读(586) 评论(0) 推荐(0) 编辑

关于小叮咚中文分词 .net版本发布的变化

摘要：关于小叮咚中文分词 .net版本发布的变化现在几乎每天都有朋友给我写信，要求交流小叮咚中文分词的实现。我现在实现的有java和C#两个版本。同样的算法逻辑，用 java 和 C#写两边可不是有趣的事情。于是自然而然想起了关于lucene发展和多语言实现的方向中采用的方法，于是决定以后主要更新java版本的中文分词算法，而.net版本的中文分词则在java class基础上转化过来。很早... 阅读全文

posted @ 2005-05-29 21:55 我要去桂林阅读(940) 评论(0) 推荐(0) 编辑

小叮咚中文分词发布 java 版本 , c# 版本， c++ 版本

摘要：小叮咚中文分词发布 java 版本 , c# 版本， c++ 版本最近关于中文分词的处理逐渐多了起来，我以前的文章也零星的介绍过许多这方面的技术。总有一些朋友来信索要中文分词的代码，而且要不同版本的，鉴于这个情况，我把我对分词的理解，按照java,C#语言各自实现了一份。C++的版本，还是用中科院的ICTCLAS 毕竟这个分词程序是很多分词的鼻祖。大家可以到：小叮咚中文分词主页查看详情。... 阅读全文

posted @ 2005-05-27 06:44 我要去桂林阅读(2321) 评论(14) 推荐(0) 编辑

我要去桂林---田春峰的网志

导航

公告