posts - 61,comments - 5,views - 11万
10 2014 档案
多线程网页爬虫 python 实现(二)
摘要:#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time cur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler: def __init__(self,craw... 阅读全文
posted @ 2014-10-14 21:56 吉大依恋 阅读(824) 评论(0) 推荐(0) 编辑
多线程网页爬虫 python 实现
摘要:采用了多线程和锁机制,实现了广度优先算法的网页爬虫。 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网 阅读全文
posted @ 2014-10-13 20:30 吉大依恋 阅读(5897) 评论(0) 推荐(1) 编辑
linux上hadoop2.4.0安装配置
摘要:1 环境准备 安装java-1.6(jdk) 安装ssh 1.1 安装jdk (1)下载安装jdk 在/usr/lib下创建java文件夹,输入命令: 输入命令: 下载后执行安装文件 (2)配置环境变量 输入命令: 将如下内容加入其中: 其中path部分是在你原有的path变量基础上加入你所安装的j 阅读全文
posted @ 2014-10-12 14:53 吉大依恋 阅读(20480) 评论(2) 推荐(1) 编辑
python实现的一个简单的网页爬虫
摘要:学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表... 阅读全文
posted @ 2014-10-11 16:36 吉大依恋 阅读(2399) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示