海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

2006年3月26日

摘要: 什么是 Cookie? Cookie 是一小段文本信息,伴随着用户请求和页面在 Web 服务器和浏览器之间传递。用户每次访问站点时,Web 应用程序都可以读取 Cookie 包含的信息。Cookie 最根本的用途是 Cookie 能够帮助 Web 站点保存有关访问者的信息。更概括地说,Cookie 是一种保持 Web 应用程序连续性(即执行“状态管理”)的方法。 我参考了 xxol.net 上一... 阅读全文
posted @ 2006-03-26 05:10 阿昆 阅读(601) 评论(1) 推荐(0) 编辑

摘要: 下面的代码中,加文字水印和加图片水印的代码不能共存我是为了方便显示才写在一块的 private void Btn_Upload_Click(object sender, System.EventArgs e) { if(UploadFile.PostedFile.FileName.Trim()!="") { ... 阅读全文
posted @ 2006-03-26 05:05 阿昆 阅读(277) 评论(0) 推荐(0) 编辑

摘要: using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions; public class App{ public static void Main() { string ... 阅读全文
posted @ 2006-03-26 05:03 阿昆 阅读(630) 评论(0) 推荐(1) 编辑

摘要: 最近有个项目需要从网络上下载网页信息和文件,并且需要登录后才能下载,所以做了个下载的通用类,供大家参考。这个是文件下载类: using System; using System.Net; using System.Web; public class SRWebClient { CookieContainer cookie; public SRWe... 阅读全文
posted @ 2006-03-26 04:59 阿昆 阅读(852) 评论(0) 推荐(0) 编辑

摘要: 摘要:本文对中文全文检索系统中常用的索引项技术n元语法,字,n元语法,词进行了介绍并讨论了其各自的特点。然后着重介绍了以词为索引项的方法及全文检索中的汉字分词问题。最后给出了一种混合型最大匹配分词算法。 关键词:信息检索 中文信息处理 分词 The indexing term technology of Chinese information retrieval and implement of ... 阅读全文
posted @ 2006-03-26 04:55 阿昆 阅读(636) 评论(0) 推荐(0) 编辑

摘要: 搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 1、从互联网上抓取网页 利用能够从互联网上自动收集网页的“网络蜘蛛”自动访问互联网,从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有... 阅读全文
posted @ 2006-03-26 04:52 阿昆 阅读(569) 评论(0) 推荐(0) 编辑

摘要: 一种面向搜索引擎的中文切分词方法 首先说一下搜索引擎切分词的产生的原因。 在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。 文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。 ... 阅读全文
posted @ 2006-03-26 04:46 阿昆 阅读(622) 评论(0) 推荐(0) 编辑

摘要: 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切分(见车东的文章); 第三种:按照词义切分(使用小叮咚的逆向最大切分法)。 上面3种切分的效果如下... 阅读全文
posted @ 2006-03-26 04:41 阿昆 阅读(328) 评论(0) 推荐(0) 编辑

摘要: 有网友问及在ASP.NET中动态生成控件在回调时控件不复存在的问题(见帖子:☆★请教关于动态生成控件的问题!急等回复!!救命啊!!),针对这个问题,我提出的解决方案如下(由于工作原因,没有很好整理,改天稍有空闲再把这些内容整理一下形成一个完整解决方案的文档,相信这两个文档对大多数用户已经足够起到启发式的作用了*_*): 对于你的这个问题,我的解决方案是(没有办法实地测试,只能是根据你的描述和需求分... 阅读全文
posted @ 2006-03-26 04:25 阿昆 阅读(657) 评论(0) 推荐(0) 编辑

摘要: 这是看到一.net高手的写作,记录下来以便参考。(http://www.brtech.com.cn)本人阅书无数,几乎市面上所有评价还不错的.net相关书籍都买了。这些书的下场一般是这样的:写作或翻译得不行的,不买;一不小心买了,过几天基本上就被扫地出门了;写作、翻译得还行,但是印刷、装订质量不行的,不买,不小心买了,翻一翻就把它扔到故纸堆,不愿意再看了。俺还有些不良嗜好,比如,我一看Wrox的红... 阅读全文
posted @ 2006-03-26 04:13 阿昆 阅读(385) 评论(1) 推荐(0) 编辑

摘要: 几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有 ... 阅读全文
posted @ 2006-03-26 04:09 阿昆 阅读(335) 评论(1) 推荐(0) 编辑

摘要: 现在很多网页都是由数据库自动生成的,数据分散在html代码之中:有的位于URL链接中,有的位于之中,有的位于javascript代码之中.如何挖掘这些数据为我所用?小的不才,最近写了一个网络数据库挖掘程序,挖掘了几千万条数据.源代码不能公开,这里简单述说一下设计思路和基本结构吧. 本来是用.net写的,写了几天,因为找不到好的c#的html解析器,最后还是改成了java.在这里,我尽量从语言中性... 阅读全文
posted @ 2006-03-26 04:04 阿昆 阅读(682) 评论(0) 推荐(0) 编辑

摘要: 用Persistence为静态页面增加session功能 一般来说,只有服务器端的CGI程序(ASP、PHP、JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便。为此,本文向读者推荐一种在DH... 阅读全文
posted @ 2006-03-26 03:44 阿昆 阅读(405) 评论(0) 推荐(0) 编辑

摘要: using System;using System.Drawing;using System.Collections;using System.ComponentModel;using System.Windows.Forms;using System.Data;using System.Text;using Microsoft.VisualBasic;using System.IO;usin... 阅读全文
posted @ 2006-03-26 03:27 阿昆 阅读(955) 评论(1) 推荐(0) 编辑

摘要: 案背景: 网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。 因此,门户搜索成为了一个重要的组成部分。目前门户搜索主要需要满足以下功能: 1. 可以... 阅读全文
posted @ 2006-03-26 03:10 阿昆 阅读(843) 评论(0) 推荐(0) 编辑

摘要: 第十章 系统的实现与总结 10.1 系统实现情况 文本的研究工作是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下进行的。系统是在原有基于站点采集的天罗采集系统的基础上改进实现的。 原有的天罗信息采集系统是一个采集性能较高的实用系统,它是我们“天罗”Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的... 阅读全文
posted @ 2006-03-26 02:57 阿昆 阅读(859) 评论(0) 推荐(0) 编辑

摘要: 第八章 页面分析 在本信息采集的URL和页面的过滤判定过程中,主要处理HTML页面。因此,在页面分析中我们所做的工作主要包括对HTML页面进行语法分析,提取出正文、链接、链接的扩展元数据及其它相关内容;再把这些内容进行简单的加工和一致性处理;最后将处理结果保存在中间信息记录库中以供URL过滤处理和页面过滤处理。 8.1 HTML语法分析 因为采集到页面的语法分析基于HTML(Hyp... 阅读全文
posted @ 2006-03-26 02:56 阿昆 阅读(721) 评论(0) 推荐(0) 编辑

摘要: 第七章 Spider采集 信息采集系统的最前沿就是与Internet相连的Spider采集,也叫“网络蜘蛛”,是系统专门与具体的Web协议打交道的部分。主要通过各种Web协议来自动采集WWW站点内有效的信息(包括文本、超链接文本、图象、声音、影像、压缩包等各类文档)。这些Web协议包括HTTP、FTP以及BBS,我们还根据用户的需要,采集了Web Chat、ICQ等特殊信息。本章先... 阅读全文
posted @ 2006-03-26 02:54 阿昆 阅读(695) 评论(0) 推荐(0) 编辑

摘要: 第五章 基于主题的Web 信息采集系统模型及我们的对策 5.1 系统模型 基于主题的Web信息采集技术在应用需求的推动下,已经成为一个热门的研究课题,为了更好的研究这个课题,我们设计了一个基于主题的Web 信息采集系统模型,如图5.1所示。为实现对基于主题的信息自动采集,我们将整个处理过程分成五大模块:主题选择和初始URL选择、Spider采集、页面分析、URL与主题的性关性判定(... 阅读全文
posted @ 2006-03-26 02:52 阿昆 阅读(796) 评论(0) 推荐(0) 编辑

摘要: 第四章 基于主题的Web 信息采集基本问题研究 在本章里,我们主要围绕基于主题的Web信息采集基本问题展开了研究,这主要包括主题的Web信息采集的定义、优点、分类,主题页面在Web上的分布特征以及相关性判别算法,后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。 4.1 基于主题的Web信息采集的定义 在Web信息采集的大家庭中,有... 阅读全文
posted @ 2006-03-26 02:51 阿昆 阅读(1086) 评论(0) 推荐(0) 编辑