多线程网页爬虫 python 实现(二)
摘要:#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time cur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler: def __init__(self,craw...
阅读全文
posted @
2014-10-14 21:56
吉大依恋
阅读(824)
推荐(0) 编辑
多线程网页爬虫 python 实现
摘要:采用了多线程和锁机制,实现了广度优先算法的网页爬虫。 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网
阅读全文
posted @
2014-10-13 20:30
吉大依恋
阅读(5897)
推荐(1) 编辑
linux上hadoop2.4.0安装配置
摘要:1 环境准备 安装java-1.6(jdk) 安装ssh 1.1 安装jdk (1)下载安装jdk 在/usr/lib下创建java文件夹,输入命令: 输入命令: 下载后执行安装文件 (2)配置环境变量 输入命令: 将如下内容加入其中: 其中path部分是在你原有的path变量基础上加入你所安装的j
阅读全文
posted @
2014-10-12 14:53
吉大依恋
阅读(20480)
推荐(1) 编辑
python实现的一个简单的网页爬虫
摘要:学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...
阅读全文
posted @
2014-10-11 16:36
吉大依恋
阅读(2399)
推荐(0) 编辑