摘要:
网上讲的还要下载libsvm.jar包,配置环境变量神马的,此处讲的方法不需要那么麻烦呵。我的系统是Ubuntu,所以其他地方讲的更改配置文件RunWeka.ini云云在我这儿根本就没这个文件,Weka也不需要安装,解压后直接运行java -jar weka.jar就行了。运行jar包时官网上有这么一句提示:Note that Java needs to be installed on your system for this to work. Also note, that using-jarwill override your current CLASSPATH variable and 阅读全文
摘要:
网页下载过程中的网络延迟成为整个系统性能的瓶颈。为提高效率,网络蜘蛛设计成队列缓冲、多线程并行结构。网络蜘蛛的三大模块:HTTP下载模块。利用HTTP协议下载,获取并存储网页内容。链接分析模块。提取网页内的超链接,获取后续页面入口。下载控制模块。控制网页访问次序、更新策略、访问队列高度等。 入口页面往往是网站的主页功sitemap页面。 Spider对网站的访问尝试一般控制在3~5层。 网络爬虫的优化策略和原则:避免重复下载。增加多个工作队列,提高并了能力。工作队列有:等待队列、处理队列、成功队列、失败队列。利用网页Proxy缓冲,检查是否需要从远程下载。同一站点的URL尽量映射到同一个线程处 阅读全文