摘要:
朋友您好,我是黄聪的笔记本博客主人。您可能对搜索引擎原理已经有所了解,也许你是一个SEO,也许你对搜索引擎很感兴趣。但如果您接触搜索引擎时间不久,而且没太多技术基础的话,在使用过程中肯定会遇到各种各样的问题。你可能并不知道如何学习搜索引擎原理,才能够快速的掌握它的精髓。如果您愿意自己折腾,当然很好。... 阅读全文
摘要:
TSE建立索引在运行程序上的大致步骤可以简化分为以下几步:1、运行命令#./DocIndex会用到一个文件 tianwang.raw.520 //爬取回来的原始文件,包含多个网页的所有信息,所以很大,这也是一个有待解决的问题,到底存成大文件(如果过大会超过2G或4G的限制,而且文件过大 索引效率过低)还是小文件(文件数过多用于打开关闭文件句柄的消耗过大)还有待思考,还就是存储方案的解决最终肯定是要存为分布式的,最终总文件量肯定是 会上TB的,TSE只支持小型的搜索引擎需求。 会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx //Data文件夹中的Doc.idx 阅读全文
摘要:
报错:*** buffer overflow detected ***:将ubuntu 9.04自带的gcc-4.3.2替换成gcc-4.1.0。出现这个报错的背景很多,但根本是gcc版本过高或者过低,使用gcc-4.1即可解决这个问题。gcc-4.1安装办法(转载自http://www.cnblogs.com/njucslzh/archive/2010/06/04/1751703.html)由于学习的原因,需要用到GCC 4.1.2,而Ubuntu10.04下默认的GCC版本是GCC 4.4.1,所以需要自己安装低版本的GCC 4.1.2。通过学习,总结安装步骤如下。首先下载所需的文件,我下 阅读全文
摘要:
由于高版本的g++编译器语法比较严格,所以在编译TSE原代码tse* 的时候会出现一些语法错误,导致编译不通过,经过再网上搜索资料,终于把这个问题解决了。以下是摘录的网上资料,最后面附着的红字部分是自己根据实际情况而写的: 网上资料:Ubuntu10.04下默认的G++版本是GCC4.4,而大多时候,我们需要使用G++4.1,所以需要自己安装低版本的G++4.1。不过我尝试过,安装版本为4.1的G++,结果最终版本为4.4的,好像也可以用,,,好了废话少说,请跟着下面的步骤:首先通过apt-get安装++4.1sudoapt-getinstallg++-4.1安装了之后,系统之中就存在两个G+ 阅读全文
摘要:
环境:主机操作系统是Windows 7,虚拟机是Ubuntu 8.10,虚拟机是VirtualBox 2.1.0。1. 安装增强功能包(Guest Additions)安装好Ubuntu 8.10后,运行Ubuntu并登录。然后在VirtualBox的菜单里选择"设备(Devices)" -> "安装增强功能包(Install Guest Additions)"。你会发现在Ubuntu桌面上多出一个光盘图标,这张光盘默认被自动加载到了文件夹/media/cdom0。进入命令行终端,输入:cd /media/cdom0sudo ./VboxLinux 阅读全文
摘要:
运行环境 ubuntu 8.10 ,gcc 版本4.3.2 前面搭建有所错误,不需要Anjatu 这个IDE的集成环境,整个程序是在vi下面编写的 过去的index版本中对于ubuntu8。10的支持不是太好,现在有了新的更新index.090422-2245.Linux.tar.gz 这个版本的index可以正确通过make,原来Tiny Search Engine运行的环境是Linux的Red Hat ,所以在Ubuntu 下面有些配置需要改变 现在安装Apache2 服务器 sudo apt-get install apache2打开,关闭,重起Apache2的命令: 打开:s... 阅读全文
摘要:
一.VMware我用的是VMware Workstation 7.1.2可以去这里下载:http://downloads.vmware.com/cn/d/info/desktop_downloads/vmware_workstation/7_0 序列号和汉化补丁百度就有。 二.ubuntu可以去这里下载:http://releases.ubuntu.com/10.10/三、安装看http://blog.sina.com.cn/s/blog_000975a20100ln41.html 阅读全文
摘要:
想做一个自动提醒软件,又懒得再装一个软件,上网找了一个VB的,分享一下。复制到记事本,另存为reminder.vbs,再运行就可以了'/*========================================================================= ' * Intro 定时提醒,格式:时间|提示语,具体使用方法可以参考例子 ' * FileName Remind.vbs ' * Author 黄聪 ' * Version v1.0 ' * WEB http://www.hcse... 阅读全文
摘要:
在主题中如何调用菜单呢? 在主题的适合位置使用方法 wp_nav_menu();, 向页面输出菜单. 方法中提供参数 theme_location, 用于指定对应的自定义菜单. 如要调用第一个菜单, 则代码如下:wp_nav_menu(array( 'theme_location' =>'primary'));wp_nav_menu 方法还提供其他很多参数。 阅读全文
摘要:
下载地址:ROST内容挖掘系统沈阳1 朱婵元2 周子轩2 (1:武汉大学信息管理学院;2:计算机学院)本文发表于:图书情报工作 2009.22 40-43【摘要】针对目前互联网中相关词句集来源狭窄,没有对相关词的相关性判定公式进行多角度考虑和深层次理论分析等问题,本文实现了相关词采集和分析原型,通过对相关词句集进行去重处理,并利用RSIS、RMRD和DDRW三种方法进行相关词重新排序。按词的特性将相关词分成五类进行相关词特性分析,并在实证实验中对搜索引擎进行人工和机器混合评测。【关键词】相关词;相似性;元搜索引擎;排序算法【分类号】TP391.1Related word Acquisition 阅读全文
摘要:
var params = $("form").serialize();$.ajax({ type:"POST", url:"www.xxxxxx.com", data:params, ... 阅读全文
摘要:
APMServ有一个问题,就是它的Apache 无法打Mod_Rewrite ,找了很多常规的打开Apache 的方法,在APMServ都不适用,今天在本地测试WordPress ,再次解决Mod_Rewrite ,无奈它还是不生效,无法启用,使用.htaccess 转向会出现Error 404提示Object not found!。这次我选择了去官方论坛找方法,没想到被这个问题困恼的人还真多,不过解决的方法还是有的:打开APMServ 程序,打开httpd.conf 文件,搜索 LoadModule rewrite_module modules/mod_rewrite.so 去掉前面的# 再 阅读全文
摘要:
假设Python安装在 C://Python2x项目路径为 D://Python/demo则在系统变量中添加 C:\Python2x;C:\Python2x\Scripts;C:\Python2x\Lib;D:\Python\demo 阅读全文
摘要:
一些常用的XPath表达式: 如果XPath的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于树中不同的层级也会被选出来。以下的语法会选出文件中所有叫做cd的元素(在树中的任何层级都会被选出来): //cd 选择未知的元素 使用星号(Wildcards,*)可以选择未知的元素。下面这个语法会选出/catalog/cd 的所有子元素: /catalog/cd/* 以下的语法会选出所有catalog的子元素中,包含有price作为子元素的元素。 /catalog/*/price 以下的语法会选出有两层父节点,叫做pri... 阅读全文
摘要:
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nutch 0.7.2的中文安装文档满街都是,nutch 0.8的安装文档见Tutorial (0.8) , 要注意两点:一是 crawl命令里的urls参数从指定文件变为了指定目录, 即原来的urls 要改存到urls/foo 里。二是 nutch-d 阅读全文
摘要:
import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host, port = urllib.splitport(host) if port is None: port = 80 print port 阅读全文
摘要:
1. 安装IronPython到http://ironpython.codeplex.com/下载IronPython。安装下载下来的安装包(要先装VS啊)。2. 创建项目创建一个C#的控制台应用程序。添加引用: 浏览到IronPython的安装目录中,添加对IronPython.dll,Microsoft.Scripting.dll 两个dll的引用。3. 添加Python文件到当前的项目中创建一个文本文件命名为:hello.py, 编辑如下def welcome(name): return "hello" + name把该文件添加的当前的项目中。4. 在C#中调用Pyt 阅读全文
摘要:
1、PacketiX VPN简介:可能有些朋友还对PacketiX VPN这个软件还不太了解,那么先在这里简单的介绍一下:官方网站地址:日文:http://www.packetix.net/jp/英文:http://www.packetix.net/en/PacketiX VPN 日本SoftEther公司开发的,用户可以利用这个软件远程连接到一个家庭网络,或将位于不同地区的节点组建成一个虚拟局域网,使用此软件不需要额外购买带有VPN功能的设备,或租用VPN专用线路,只要可以连接互联网即可使用。PacketiX VPN 是筑波大学一年级学生登游大自编的软件,原名叫SoftEther。 此软件简 阅读全文
摘要:
<SCRIPT language=JavaScript type=text/JavaScript> var step=0,_admin=true; // 后台输出是否有新信息数据 var _title=document.title; function flash_title() { step++ if (step==3) {step=1} if (step==1) {document.title=' '+_title} if (step==2) {document.title='新信息 '+_title} set... 阅读全文
摘要:
IE6,IE7,IE8,Firefox 兼容的css hack.color{background-color: #CC00FF; /*所有浏览器都会显示为紫色*/background-color: #FF0000\9; /*IE6、IE7、IE8会显示红色*/*background-color: #0066FF; /*IE6、IE7会变为蓝色*/ _background-color: #009933; /*IE6会变为绿色*/}总结:*: IE6 IE7_: IE6*+: IE7----------------------------------------IE6,IE7,Firefox兼容. 阅读全文