04 2007 档案

摘要:Heap是完全二叉树,所以可以用数组来隐式表示。对Heap的通常操作是删除和插入。删除就是去掉Heap的顶元素,然后重新建Heap.思想是,令Heap[1]=Heap[n],然后调整这个Heap即可。插入操作类似,只是从底部调整这个Heap;n++;child=n;parent=n/2;while(parent>=1){if([parent] 0){if(child+1 x[parent]){swap(&x[child],&x[parent]);/* adjust */temp_parent=child;temp_child=temp_parent*2;while(tem 阅读全文
posted @ 2007-04-29 00:20 cacard 阅读(733) 评论(1) 推荐(0) 编辑
摘要:快排的两个步骤:1,找基准点;2,递归1;挑白菜的方法来解释:先设定“分段点”为第一个白菜x[0],称为“标准大小的白菜”;L站x[1],向右挑;R站在x[n-1],向左挑;循环(直到两人碰面之后停止){循环(L碰见的白菜比“标准”小 && L没有走到头){L继续向右挑白菜;}循环(R碰见的白菜比“标准”大 && 没有走到头){R继续向左挑白菜;}如果(L在R的左边) /* 这里加这个if条件是因为,有可能L已经跑到R的右边了 */{交换白菜;}}最后,R处于的位置就是分段点。交换分段点与x[0]的白菜,完成“一次划分”。C代码:intpartition(int 阅读全文
posted @ 2007-04-28 12:19 cacard 阅读(569) 评论(0) 推荐(0) 编辑
摘要:VIPS 是 Microsoft Research Asia 的几位实习学生提出的算法,可在 MSR 里面查看详细信息,另外还有中文简略介绍,还有一个 C# 写的简单实现。他们的思想是根据HTML源代码在浏览器中的显示属性来确定一个页面到底要需要分成哪些块。简单的说就是将页面切割成一块一块的,页面是一块,页脚是一块,中间是一块,然后中间又根据内容分成更细的块,整个过程是一个迭代的过程。最后对于太小... 阅读全文
posted @ 2007-04-26 22:24 cacard 阅读(1789) 评论(0) 推荐(0) 编辑
摘要:xunlei 是资源的垂直搜索引擎,flickr 是photo/images,youtube 应该是视频,digg 是社会化新闻,ctrip/qunar应该是酒店、旅行相关,大众点评是餐馆,豆瓣是 book/movie/music,myspace 应该是社区,qihoo 不怎么垂直,应该是传统搜索引擎,这也包括其他专业的 blog 搜索引擎,这类网站迟早被 google/baidu 干掉,因为他们... 阅读全文
posted @ 2007-04-26 01:34 cacard 阅读(863) 评论(8) 推荐(0) 编辑
摘要:一、搜索引擎/网络蜘蛛程序代码 国外开发的相关程序 1、Nutch 官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本:Nutch 0.7.2 Released Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(F... 阅读全文
posted @ 2007-04-25 23:44 cacard 阅读(11140) 评论(7) 推荐(0) 编辑
摘要:闭关了这么多天,主要是在维护 diglog,还有考研。算都还不错吧,diglog 的访问量与信息量成正比,目前比较客观,研究生基本上是考上了,就等待正式录取通知书了,希望能在 重庆大学 计算机学院多研究一些关于搜索引擎和web数据挖掘方面的东西。这几个月呢,打算挣点学费,学点东西,好好休息休息,:) 重庆大学主教大楼傍边是嘉陵江 这里不像北方,整天都是米饭,想吃多少就吃多少 刚刚入春,落叶满地 阅读全文
posted @ 2007-04-21 10:49 cacard 阅读(496) 评论(6) 推荐(0) 编辑