2016 年 3月 6 日随笔档案 - 北京流浪儿

2016年3月6日

摘要：使用xpath多线程爬取百度贴吧内容 #encoing=utf-8 from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import json import sys r 阅读全文

posted @ 2016-03-06 13:04 北京流浪儿阅读(479) 评论(0) 推荐(0) 编辑

爬虫神器xpath的用法(三)

摘要： xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数，网址列表) ''' from multiprocessing.dummy import Pool as ThreadPool import 阅读全文

posted @ 2016-03-06 11:24 北京流浪儿阅读(277) 评论(0) 推荐(0) 编辑

爬虫神器xpath的用法（二）

摘要：爬取网页内容的时候，往往网页标签比较复杂，对于这种情况，需要用xpath的starts-with和string(.)功能属性来处理，具体看事例 #encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html> <hea 阅读全文

posted @ 2016-03-06 10:52 北京流浪儿阅读(793) 评论(0) 推荐(0) 编辑

爬虫神器xpath的用法（一）

摘要： 1、如果你没有安装lxml，请运行pip install lxml或者easy_install lxml安装，如果在安装过程中失败的话，是因为lxml需要依赖某些库文件，具体可以问下度娘，这里不再赘述。 2、安装成功后，请看下面测试代码 //：定位根节点/：往下层寻找/text()：提取文本内容阅读全文

posted @ 2016-03-06 10:24 北京流浪儿阅读(838) 评论(0) 推荐(0) 编辑

公告