随笔分类 -  爬虫

python3
摘要:廖雪峰老人的url 1、master端代码 2、slave代码 3、先执行master,再执行slave 阅读全文
posted @ 2018-05-17 16:18 来呀快活吧 阅读(281) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2017-12-13 23:39 来呀快活吧 阅读(21) 评论(0) 推荐(0)
摘要:流程如下: #1 配置好MongoDB的依赖库 #2 模拟搜索街拍的请求信息 #3 通过请求返回的json返回的url地址再次爬取 #4 爬取新的url地址,并爬取相关的图片地址 #5 获取url地址,并将爬取数据写至MongoDB,且通过二进制流下载下来,若文件相同,则通过md5判断 1、相关配置 阅读全文
posted @ 2017-12-03 00:31 来呀快活吧 阅读(645) 评论(0) 推荐(0)
摘要:import json import re import requests from requests import RequestException from multiprocessing import Pool #引入进程池 def get_page(url):#获取网页 try: headers={'User-Agent': '... 阅读全文
posted @ 2017-11-29 22:25 来呀快活吧 阅读(313) 评论(0) 推荐(0)

cs