摘要: 昨天又有一个项目接手,是一个钢厂的ERP项目,是使用一个开源的项目进行二次开发来做的,这个项目在3月份就已经由本科生开始了,但是现在他们人手不够就把我们也加进来加快进度,这可苦了我们了,赚学校点钱还真不容易。这个项目的搭建还是很复杂的,在别人的指导下搞了半天才搞完真是不容易,现在只是大致的了解了一下这个项目的简要情况还不知到具体的情况,但是听说已经有了解决方案,现在还是不知道到底是要怎样的... 阅读全文
posted @ 2008-04-17 11:12 yiling 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 今天是清明本来打算回家了,后来想了想发现回家也没什么意思,就不回了,在实验室呆了一天研究了一天的中文分词,终于也找到了一个开源的中文分词,这个中文分词是继承自Lucence的分词包。因为Lucence的中文分词效果不好,只是对中文简单的拆分没有什么实际效果。这个开源的分词包叫“庖丁解牛”分词的效率还是不错的,今天看了一下它的原理感觉还是很好的,打算明天写个测试代码试试。 阅读全文
posted @ 2008-04-05 00:27 yiling 阅读(602) 评论(2) 推荐(0) 编辑
摘要: 前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvist... 阅读全文
posted @ 2008-04-02 20:47 yiling 阅读(322) 评论(1) 推荐(0) 编辑
摘要: 中文分词和搜索引擎 中文分词除了在索引结构上影响搜索引擎以外,还会如何影响搜索引擎? 除了搜索引擎的索引过程需要用到分词以外,所有的搜索之前也需要用到分词。有些人误认为"短语搜索"(即两端加上引号的搜索方式,搜索引擎基本都支持这种方式,查看搜索引擎帮助)是直接拿字符串去匹配不用分词,因为结果看上去好像是字符串匹配的结果。其实不然,短语搜索同样需要用分词,只不过在结果中需要位置连续等严格限制。当位置... 阅读全文
posted @ 2008-04-02 20:45 yiling 阅读(426) 评论(1) 推荐(0) 编辑
摘要: 中文分词的算法 中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。 如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如: 输入文本: 我是学生 词: 我/是/学生 其实这样... 阅读全文
posted @ 2008-04-02 20:45 yiling 阅读(455) 评论(1) 推荐(0) 编辑
摘要: 最近这个项目有个难点就是要用到搜索引擎,而这里最难的就是分词技术,我从网上找了一些分词的资料,在这里探讨一下。 目前的搜索引擎,大多是基于一种称为倒排索引的结构[1]。以什么做为索引的Key值,直接影响到整个搜索引擎的准确度、召回率[2]、速度。我们先看看不使用中文分词的情况。 如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎... 阅读全文
posted @ 2008-04-02 19:50 yiling 阅读(368) 评论(1) 推荐(0) 编辑
摘要: 互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥 有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到 想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为... 阅读全文
posted @ 2008-04-02 19:38 yiling 阅读(331) 评论(1) 推荐(0) 编辑
摘要: 被陈X老师压迫了那么久,那泄心中的怨气,在网上找到他上课压迫我们的翻译题及答案,,在此贴出以供兄弟姐妹共享。 考研英语长难句(1) 1. That sex ratio will be favored which maximizes the number of descendants an individual will have and hence the ... 阅读全文
posted @ 2008-03-31 15:02 yiling 阅读(713) 评论(1) 推荐(0) 编辑
摘要: CICS提出了region的概念,一个region类似于一个进程,有一个能执行多个线程的地址空间。每个region都能拥有资源,如终端,程序,数据库,每一类型的资源用一张表描述,每一个表项代表一个资源。一个应用程序的失败,仅仅影响他所在的CICS区域,同样,region也是进行事务分布的单元。cics region的东西太多了,这里只是给一个直观简单的描述。 阅读全文
posted @ 2008-03-30 09:33 yiling 阅读(973) 评论(1) 推荐(0) 编辑
摘要: 最近加入了一个上海科委的项目(上海研发公共服务平台),这个平台主要是把现在上海的一百多家科研机构的服务网站给规范化,并且把服务给整合起来 ,这里的难点就是没有一个很好的可行的规范作为样板,一切都要我们自己来研究到底怎么弄才能弄得让用户可以接受,这就是很让人头痛的地方,而且还有很多技术难题没有解决,很郁闷很迷茫。 因为这个项目是二期,搞一期的上一届的研究生都走了,我们... 阅读全文
posted @ 2008-03-26 22:39 yiling 阅读(269) 评论(1) 推荐(0) 编辑