随笔分类 - 爬虫
摘要:再用爬虫爬取数据的时候报错:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661) 好多博客我看都说是:网站证书的问题,取消证书验证就没问题了 找了三种解决办法: 1、在request请求的时候取消验证verif
阅读全文
摘要:# coding=utf-8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "etiaky.settings") import django import json import ctypes django.setup() import requests import re from bs4 import Beautif...
阅读全文
摘要:原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) scrapy-redis组件 使用scrapy-redis的去重+调度实现分布式爬取 持久化 从Redis中获取起始URL # 完全复制粘贴过来的博客
阅读全文
摘要:# 程序启动文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.path.dirname(os.path.dirname(os.path.realpath(__file__))) print(BASEPATH) sys.path.append(BASEPATH) from c...
阅读全文
摘要:# -*- coding: utf-8 -*- # Scrapy settings for AMAZON project # # For simplicity, this file contains only settings considered important or # commonly u
阅读全文
摘要:介绍: Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Ass
阅读全文
摘要:# 同步执行,效率慢 # import requests # def parse_page(res): # print("PAESE %s" %(len(res))) # # def get_page(url): # print("GET %s" %url) # response = requests.get(url) # if response.status_c...
阅读全文
摘要:<!--done--> 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任
阅读全文
摘要:查询目录 一,硬件 十一,数据库 二,Linux基础 十二,前端 三,python基础 十三,Django 四,python文件处理 十四,flask 五,函数 十五,版本控制-Git 六,模块和包 十六,缓存 七,面向对象 十七,爬虫 八,异常处理 十八,项目 九,网络编程 十九,源码解读 十,进
阅读全文
摘要:爬虫目录: 第一篇:请求库request 第二篇:请求库selenum 第三篇:解析库:re,beautifulsoup 第四篇:存储库MongoDB 第五篇:校花网视频爬取 第六篇:github免密登陆 第七篇:拉钩,51job自动投递简历 第八篇:如何提高爬虫性能 第九篇:爬虫框架scrapy
阅读全文
摘要:import requests from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dor
阅读全文
摘要:# -*- coding: utf-8 -*- import re import requests session = requests.session() # 第一步,访问51job登录页面 # 请求url: https://login.51job.com/login.php # 请求方式:get
阅读全文
摘要:from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.
阅读全文
摘要:import requests import re # 一:先获取登陆页面,拿到authenticity_token: # 1 请求的url:https://github.com/login # 2 请求方法:GET # 3 请求头: # User-Agent r1 = requests.get('https://github.com/login', ...
阅读全文
摘要:# -*- coding: utf-8 -*- import requests from urllib.parse import urlencode # python模仿百度搜索引擎 # keyword = input(">>:").strip() # res = urlencode({"wd": keyword}, encoding="utf-8") # url = "https://www...
阅读全文
摘要:# 简易版爬取校花网视频import requests import re import hashlib import time movie_path = "C:\mp4" #视频存储目录 def get_page(url): ''' 返回一个字符串的网页页面 :param url: :return: ''' try: ...
阅读全文