11 2011 档案
摘要:在2.3版本的sdk中可以看到在ANDROID_SDK _PATH/tools/下面多了一个proguard文件夹,google把proguard技术放在了android sdk里面,现在已经可以通过正常的编译方式实现代码混淆了。在2.3版本以后,无论开发用的是哪一个版本的SDK,新建一个工程里面都会有default.properties和proguard.cfg两个文件。(http://www.my400800.cn )proguard4.6.zip 下载默认的default.properties代码如下:# This file is automatically generated by A
阅读全文
摘要:nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。一、安装jdkJdk版本为1.6, 下载地址:http://www.sun.com/download/安装路径:C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该处)配置PATH环境变量 ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.6.0_23配置JAVA_BIN环境变量 C:
阅读全文
摘要:1、贪婪模式: 根据匹配字符串以及表达式尽可能多的进行匹配,成为贪婪匹配模式 例如:/a\d+/ 即可以匹配首字母为a的之后的许多数字,这个不进行限制 或者另外一种方法/a\d{2,}/也可以实现同样的方法 2、非贪婪模式: 根据匹配字符串以及表达式尽可能少的进行匹配。使用的方法就是在修饰匹配次数的特殊符号后再加上一个?号进行限制 如"*?","+?","{n,}?","{n,m}?" 如:/a\d+?/即匹配的字符串为a为首字母,后面只能有一个数字从指定字符串中取得url信息<!DOCTYPE HTML P
阅读全文
摘要:Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫: 能够以更高的带宽去站点爬。 主题爬虫: 集中于被选择的问题。 持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫: 对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。 Heritrix工作原理 Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:在预定的U...
阅读全文
摘要:一、下载: 到www.sourceforge.net 网站搜索heritrix, 然后分别下载下来hheritrix-1.14.4-src.zip,heritrix-1.14.4.zip下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/ 二、配置 1. 解压 heritrix-1.14.4.zip ,假设解压到了c 盘根目录下并把解压后的文件夹命名为heritrix(http://www.my400800.cn )2. 进入c:/heritrix/.
阅读全文