随笔档案「2014年10月」 - 吉大依恋

多线程网页爬虫 python 实现（二）

摘要：#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time cur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler: def __init__(self,craw... 阅读全文

posted @ 2014-10-14 21:56 吉大依恋阅读(836) 评论(0) 推荐(0)

多线程网页爬虫 python 实现

摘要：采用了多线程和锁机制，实现了广度优先算法的网页爬虫。对于一个网络爬虫，如果要按广度遍历的方式下载，它就是这样干活的： 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址，放入下载列表中 3.按下载列表中的地址，下载所有新的网页 4.从所有新的网页中找出没有下载过的网阅读全文

posted @ 2014-10-13 20:30 吉大依恋阅读(5944) 评论(0) 推荐(1)

linux上hadoop2.4.0安装配置

摘要：1 环境准备安装java-1.6(jdk) 安装ssh 1.1 安装jdk (1)下载安装jdk 在/usr/lib下创建java文件夹，输入命令: 输入命令：下载后执行安装文件 (2)配置环境变量输入命令：将如下内容加入其中: 其中path部分是在你原有的path变量基础上加入你所安装的j 阅读全文

posted @ 2014-10-12 14:53 吉大依恋阅读(20522) 评论(2) 推荐(1)

python实现的一个简单的网页爬虫

摘要：学习了下python，看了一个简单的网页爬虫：http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫，获取豆瓣的最新电影信息。爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表... 阅读全文

posted @ 2014-10-11 16:36 吉大依恋阅读(2416) 评论(0) 推荐(0)