摘要:朋友您好,我是黄聪的笔记本博客主人。您可能对搜索引擎原理已经有所了解,也许你是一个SEO,也许你对搜索引擎很感兴趣。但如果您接触搜索引擎时间不久,而且没太多技术基础的话,在使用过程中肯定会遇到各种各样的问题。你可能并不知道如何学习搜索引擎原理,才能够快速的掌握它的精髓。如果您愿意自己折腾,当然很好。...
阅读全文
11 2011 档案
摘要:TSE建立索引在运行程序上的大致步骤可以简化分为以下几步:1、运行命令#./DocIndex会用到一个文件 tianwang.raw.520 //爬取回来的原始文件,包含多个网页的所有信息,所以很大,这也是一个有待解决的问题,到底存成大文件(如果过大会超过2G或4G的限制,而且文件过大 索引效率过低)还是小文件(文件数过多用于打开关闭文件句柄的消耗过大)还有待思考,还就是存储方案的解决最终肯定是要存为分布式的,最终总文件量肯定是 会上TB的,TSE只支持小型的搜索引擎需求。 会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx //Data文件夹中的Doc.idx
阅读全文
摘要:报错:*** buffer overflow detected ***:将ubuntu 9.04自带的gcc-4.3.2替换成gcc-4.1.0。出现这个报错的背景很多,但根本是gcc版本过高或者过低,使用gcc-4.1即可解决这个问题。gcc-4.1安装办法(转载自http://www.cnblogs.com/njucslzh/archive/2010/06/04/1751703.html)由于学习的原因,需要用到GCC 4.1.2,而Ubuntu10.04下默认的GCC版本是GCC 4.4.1,所以需要自己安装低版本的GCC 4.1.2。通过学习,总结安装步骤如下。首先下载所需的文件,我下
阅读全文
摘要:由于高版本的g++编译器语法比较严格,所以在编译TSE原代码tse* 的时候会出现一些语法错误,导致编译不通过,经过再网上搜索资料,终于把这个问题解决了。以下是摘录的网上资料,最后面附着的红字部分是自己根据实际情况而写的: 网上资料:Ubuntu10.04下默认的G++版本是GCC4.4,而大多时候,我们需要使用G++4.1,所以需要自己安装低版本的G++4.1。不过我尝试过,安装版本为4.1的G++,结果最终版本为4.4的,好像也可以用,,,好了废话少说,请跟着下面的步骤:首先通过apt-get安装++4.1sudoapt-getinstallg++-4.1安装了之后,系统之中就存在两个G+
阅读全文
摘要:环境:主机操作系统是Windows 7,虚拟机是Ubuntu 8.10,虚拟机是VirtualBox 2.1.0。1. 安装增强功能包(Guest Additions)安装好Ubuntu 8.10后,运行Ubuntu并登录。然后在VirtualBox的菜单里选择"设备(Devices)" -> "安装增强功能包(Install Guest Additions)"。你会发现在Ubuntu桌面上多出一个光盘图标,这张光盘默认被自动加载到了文件夹/media/cdom0。进入命令行终端,输入:cd /media/cdom0sudo ./VboxLinux
阅读全文
摘要:运行环境 ubuntu 8.10 ,gcc 版本4.3.2 前面搭建有所错误,不需要Anjatu 这个IDE的集成环境,整个程序是在vi下面编写的 过去的index版本中对于ubuntu8。10的支持不是太好,现在有了新的更新index.090422-2245.Linux.tar.gz 这个版本的index可以正确通过make,原来Tiny Search Engine运行的环境是Linux的Red Hat ,所以在Ubuntu 下面有些配置需要改变 现在安装Apache2 服务器 sudo apt-get install apache2打开,关闭,重起Apache2的命令: 打开:s...
阅读全文
摘要:一.VMware我用的是VMware Workstation 7.1.2可以去这里下载:http://downloads.vmware.com/cn/d/info/desktop_downloads/vmware_workstation/7_0 序列号和汉化补丁百度就有。 二.ubuntu可以去这里下载:http://releases.ubuntu.com/10.10/三、安装看http://blog.sina.com.cn/s/blog_000975a20100ln41.html
阅读全文