摘要: Iveely Search Engine在经过一个月艰辛的测试之后,0.3.0终于与大家见面了,本次版本的主题是:实时信息检索。 项目及源码下载地址 http://iveelyse.codeplex.com 也许你会怀疑我指的是否是"实时搜索“?我想回答你的是,这是迈向实时搜索的一大步。那么0.3.0到底新增加了哪些东西?0.3.0中更改了爬虫策略,索引策略。 在爬虫方面,我们放弃了以前的完整遍历整个网站,采用广度遍历3000个网页后,然后下次再广度遍历3000个不同的网页且更新以前爬行过得网页,这样可以保证最新的数据可以尽快搜到。索引方面,抛弃了以往的数据结构,采用新的二维表,.. 阅读全文
posted @ 2012-10-15 08:50 Iveely Liu 阅读(2979) 评论(21) 推荐(7) 编辑
摘要: 今天晚上整理了两道比较简单关于搜索引擎的题目,所有题均是Iveely搜索引擎中遇到的,与大家分享你的智慧吧!都不难,但是希望能够找到一种最佳的解决办法。问题一: 背景介绍: 在用户搜索的过程中,我们会将用户的关键字进行切分后,然后进行匹配。例如:用户输入“程序人生”,分词后会得到"程序"、“人生”,我们已经可以通过时间复杂度为0(1)的方式提取出“程序”对应的网页集合(9.00235,123.00691,96.00035...),以及"人生"对应的网页集合(6.00025,123.00128,95.00245...),其中 整数部分是网页编号,小数部分是 阅读全文
posted @ 2012-09-18 20:56 Iveely Liu 阅读(3234) 评论(3) 推荐(1) 编辑
摘要: Iveely Search Engine 是一款纯C#实现的搜索引擎。Iveely的中文翻译:爱为您。英文全称:I void everything , enjoy loving you! 希望更多的搜索引擎爱好者加入进来,感受分享的快乐。Iveely目标是:不是给用户一堆结果让用户去发现最适合自己的,我希望是返回的就是用户最想要的,用户完全无需筛选,所以Iveely Search Engine 永远没有分页,更希望它能嵌入机器人思维中,成为人类的良师益友。当然现在依然处于文本搜索阶段。我对搜索引擎的观点是:搜索引擎应该是互联网的学习者,我们应该制定一个规则,让它从一个不识字的孩子逐渐成为一.. 阅读全文
posted @ 2012-09-03 09:15 Iveely Liu 阅读(3154) 评论(28) 推荐(13) 编辑
摘要: 在上周发布的Iveely Search Engine 0.1.0版本中,未包含IveelySE的搜索缓存策略,如果没有此缓存,那么每次搜索都将是从数据系统中分析读取结构,将是件很麻烦的事情。今天花了2个小时,写了下缓存策略的Codes。搜索缓存的主要工作是将最近最近搜索比较活跃的内容保存到内存中,以便下次搜索更加快速反应给用户,主要目的也是减少CPU计算和磁盘IO。 IveelySE此时的缓存策略相对简单:将用户搜索的结果,按照时间顺序存入内存中,如果已经在内存中,那么将其提升到最近使用范围内,直到内存中的缓存数量(自定义)达到饱和后,依次淘汰最久未使用的搜索结果。思路相对简单,但是这样的数. 阅读全文
posted @ 2012-08-12 20:20 Iveely Liu 阅读(1708) 评论(1) 推荐(1) 编辑
摘要: 一直热爱搜索引擎事业,但是它现在并不是我工作。你也许会问,Iveely是什么?Iveely 是I void everything,enjoy loving you的首字母缩写,表达我对搜索引擎的热爱。目前发布的是0.1.0版本,是一个基本版本,包含了无数的Bugs,您可以在http://iveelyse.codeplex.com/上下载源码,任何一个改动的源码,您都可以下载到。但是,当您下载源码后,也许您会痛骂我一顿,这是什么源码,能看懂吗?乱七八糟的,当您有这样的想法的时候,请原谅我,这些东西都是我业余开发,不足之处,定然数不胜数,但我相信,终有一天您也会感叹,原来并没有那么糟糕。所有源码. 阅读全文
posted @ 2012-08-05 21:55 Iveely Liu 阅读(6373) 评论(53) 推荐(28) 编辑
摘要: 最近,一位在和一位同学交流的时候,他让我看看他的代码情况,我看了许久,逐步记录了一些,现在慢慢总结出来,与大家分享,编写有效的C#代码很重要,虽然我们平时写的时候只管实现,但是在面向大型的项目或者参与国际开源项目的时候,经常会遇到有效的C#问题。今天列举几个,供大家参考。 第一:ToString() 很好,但是就这样? 我们常常喜欢用ToString()进行格式化转换,将对象表达为字符串形式,但是如何应用有效呢?举个例子:获取当前时间:System.DateTime.Now.ToString() 这是我们太习惯不过的代码了,但是里面至少有两处问题。1)"System." 是 阅读全文
posted @ 2012-04-04 18:58 Iveely Liu 阅读(5048) 评论(32) 推荐(6) 编辑
摘要: 今天上午上课无聊,写了个数字大小写转换的程序,能转换千亿以内的任何数值,代码见下,幼稚了,让大家见笑了。usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;namespaceNumberConver{classProgram{staticvoidMain(string[]args){while(true){//执行转换功能compute();//换行Console.WriteLine();}}///<summary>///执行转换功能///</summary>stat 阅读全文
posted @ 2012-03-23 19:31 Iveely Liu 阅读(1024) 评论(0) 推荐(0) 编辑
摘要: 今天简简单单的实现了下数据挖掘十大算法中的KNN,即临近算法,也就是给定很大的数据量中,给定一个测试距离,则测试数据点在此范围内哪一类型的数据最多,它就最可能属于那一类,一般数据的类型利用分类算法分好,我这里假设是已经分好(随机化分类)。实现效果如下: 至今我们已经实现了Kmeans、决策树、KNN剩下的7个算法,我们一步一步来,希望大家都有收获,最关键的是,在后面我们将综合更多的算法,写一些战斗航母型程序出来,仅仅看单个只能说是学习。源码如下:/Files/liufanping/KNN.rar 阅读全文
posted @ 2012-02-20 20:04 Iveely Liu 阅读(1010) 评论(0) 推荐(2) 编辑
摘要: 决策树的思想很简答,但是不知道大家是否真的用代码去实现没,今天坐着花了点时间,将决策树算法的思想用C#实现了一遍(代码见附件),实现结果截图:如果你懂决策树的思想,相信上面的截图你一定能够理解,这个例子是参考的网上的决策树讲解的例子,我只是做了实现,发现这个例子的最终结果不是很理想。详情代码,采用IO3的计算方式。/Files/liufanping/DecisionTree.rar 阅读全文
posted @ 2012-02-19 14:02 Iveely Liu 阅读(1504) 评论(0) 推荐(0) 编辑
摘要: 很多朋友都以为数据挖掘在一般开发的时候应用得少,其实并不是这样,数据挖掘的算法时时刻刻都陪伴着我们,掌握数据挖掘对我们是非常有帮助的,假如我们熟练的会使用Windows、web应用程序设计,但是那只能说明我们很厉害,可以称谓战斗机,但是我们不能成为航母,因为我们缺少航母那样的驱动力,我想数据挖掘一定是那驱动力之一,上一篇,我利用Kmeans进行了图像灰度的处理,这一篇是利用Kmeans进行图像的相似区域选择,截图: 从此刻起,希望大家都重视下数据挖掘,不管是从事哪方面的开发,数据已经成为我们的核心,类似于Kmeans这样的简单算法,必然要会,并且我相信一定会带来非常不错的利益。 也许我... 阅读全文
posted @ 2012-02-17 14:58 Iveely Liu 阅读(994) 评论(0) 推荐(2) 编辑