摘要:
1)Select Crawl Scope:Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制,选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.sc 阅读全文
摘要:
ubuntu环境下eclipse的安装以及hadoop插件的配置 一、eclipse的安装 在ubuntu桌面模式下,点击任务栏中的ubuntu软件中心,在搜索栏搜索eclipse 注意:安装过程需要输入用户密码。 二、eclipse的配置 待eclipse安装好以后,在命令行输入whereis e 阅读全文
摘要:
一、ssh的启动 ssh localhost二、hadoop的HDFS的格式化 bin/hadoop namenode -format三、hadoop的start-all.sh的启动 bin/tart-all.sh四、hadoop的datanode的启动 bin/hadoop-daemon.sh s 阅读全文
摘要:
Ubuntu下hadoop环境的搭建(伪分布模式) 一、必要资源的下载 1、Java jdk(jdk-8u25-linux-x64.tar.gz)的下载 具体链接为: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl 阅读全文