摘要: 使用xpath多线程爬取百度贴吧内容 #encoing=utf-8 from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import json import sys r 阅读全文
posted @ 2016-03-06 13:04 北京流浪儿 阅读(479) 评论(0) 推荐(0) 编辑
摘要: xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from multiprocessing.dummy import Pool as ThreadPool import 阅读全文
posted @ 2016-03-06 11:24 北京流浪儿 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 爬取网页内容的时候,往往网页标签比较复杂,对于这种情况,需要用xpath的starts-with和string(.)功能属性来处理,具体看事例 #encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html> <hea 阅读全文
posted @ 2016-03-06 10:52 北京流浪儿 阅读(793) 评论(0) 推荐(0) 编辑
摘要: 1、如果你没有安装lxml,请运行pip install lxml或者easy_install lxml安装,如果在安装过程中失败的话, 是因为lxml需要依赖某些库文件,具体可以问下度娘,这里不再赘述。 2、安装成功后,请看下面测试代码 //:定位根节点/:往下层寻找/text(): 提取文本内容 阅读全文
posted @ 2016-03-06 10:24 北京流浪儿 阅读(838) 评论(0) 推荐(0) 编辑