摘要:
针对上一篇文章中出现的问题:Command crawl is deprecated, please use bin/crawl instead错误信息,今天在官网上查阅了一下,进行了总结。 官网link:http://wiki.apache.org/nutch/bin/nutch%20crawl 一 阅读全文
摘要:
来自:维基百科,自由的百科全书 Apache Spark是一个开源簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。Spark在内存内运行程 阅读全文
摘要:
首先在网上查了一下: Solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 Solr引擎 Solr 阅读全文
摘要:
方法主要有三种 转换函数、强制类型转换、利用js变量弱类型转换。 1. 转换函数: js提供了parseInt()和parseFloat()两个转换函数。前者把值转换成整数,后者把值转换成浮点数。只有对String类型调用这些方法,这两个函数才能正确运行;对其他类型返回的都是NaN(Not a Nu 阅读全文
摘要:
在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了 阅读全文
摘要:
2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University(俄勒冈州立大学)采用Nutch 2004年9月Creative Commons(知识共享)推出基于Nutch的搜索服务 阅读全文
摘要:
Apache Ivy是一个管理项目依赖的工具 它与Maven Apache Maven 构建管理和项目管理工具已经吸引了 Java 开发人员的注意。Maven 引入了 JAR 文件公共存储库的概念,可通过公开的 Web 服务器访问(称为 ibiblio)。Maven 的方法减少了 JAR 文件膨胀的 阅读全文
摘要:
转:http://www.linuxidc.com/Linux/2012-10/71557.htm 首先确实不得不说,网上有很多类似Ubuntu下安装JDK7的教程。不过大都是基于JDK6的bin文件。如果你现在去Oracle官网去看一下的话,会发现都变成.tar.gz的压缩文件了。 另外本文还顺带 阅读全文
摘要:
ubuntu安装好之后,默认是不能用root用户登录桌面的,只能使用普通用户或者访客登录。怎样开启root用户登录桌面呢? 先用普通用户登录,然后切换到root用户,然后执行如下命令: 在打开的文件里添加一句: 这句的意思是在登录时允许用户自己输入用户名和密码。 然后给root用户设置登录密码,设置 阅读全文
摘要:
作为系统管理员,你可能经常会(在某个时候)需要查看系统中有哪些用户正在活动。有些时候,你甚至需要知道他(她)们正在做什么。本文为我们总结了4种查看系统用户信息(通过编号(ID))的方法。 1. 使用w命令查看登录用户正在使用的进程信息 w命令用于显示已经登录系统的用户的名称,以及他们正在做的事。该命 阅读全文