随笔分类 - 爬虫
python3
摘要:廖雪峰老人的url 1、master端代码 2、slave代码 3、先执行master,再执行slave
阅读全文
摘要:流程如下: #1 配置好MongoDB的依赖库 #2 模拟搜索街拍的请求信息 #3 通过请求返回的json返回的url地址再次爬取 #4 爬取新的url地址,并爬取相关的图片地址 #5 获取url地址,并将爬取数据写至MongoDB,且通过二进制流下载下来,若文件相同,则通过md5判断 1、相关配置
阅读全文
摘要:import json import re import requests from requests import RequestException from multiprocessing import Pool #引入进程池 def get_page(url):#获取网页 try: headers={'User-Agent': '...
阅读全文

浙公网安备 33010602011771号