爬虫 - 随笔分类 - 一石数字欠我15w!!!

[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)

摘要：再用爬虫爬取数据的时候报错：[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661) 好多博客我看都说是：网站证书的问题，取消证书验证就没问题了找了三种解决办法： 1、在request请求的时候取消验证verif 阅读全文

posted @ 2019-06-15 09:11 一石数字欠我15w!!! 阅读(8230) 评论(0) 推荐(0)

优志愿前端数据加密破解-python

摘要：# coding=utf-8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "etiaky.settings") import django import json import ctypes django.setup() import requests import re from bs4 import Beautif... 阅读全文

posted @ 2019-06-14 15:10 一石数字欠我15w!!! 阅读(860) 评论(3) 推荐(0)

打造分布式爬虫

摘要：原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址） scrapy-redis组件使用scrapy-redis的去重+调度实现分布式爬取持久化从Redis中获取起始URL # 完全复制粘贴过来的博客阅读全文

posted @ 2018-01-26 19:59 一石数字欠我15w!!! 阅读(427) 评论(0) 推荐(0)

爬虫练习-爬取小说

摘要：# 程序启动文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.path.dirname(os.path.dirname(os.path.realpath(__file__))) print(BASEPATH) sys.path.append(BASEPATH) from c... 阅读全文

posted @ 2018-01-24 18:33 一石数字欠我15w!!! 阅读(1265) 评论(0) 推荐(0)

爬虫项目-爬取亚马逊商品信息

摘要：# -*- coding: utf-8 -*- # Scrapy settings for AMAZON project # # For simplicity, this file contains only settings considered important or # commonly u 阅读全文

posted @ 2018-01-24 17:25 一石数字欠我15w!!! 阅读(7843) 评论(0) 推荐(0)

爬虫框架_scrapy1

摘要：介绍： Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文

posted @ 2018-01-23 12:46 一石数字欠我15w!!! 阅读(473) 评论(0) 推荐(0)

爬虫性能测试代码

摘要：# 同步执行，效率慢 # import requests # def parse_page(res): # print("PAESE %s" %(len(res))) # # def get_page(url): # print("GET %s" %url) # response = requests.get(url) # if response.status_c... 阅读全文

posted @ 2018-01-23 08:21 一石数字欠我15w!!! 阅读(594) 评论(0) 推荐(0)

爬虫性能相关知识点

摘要： 一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任阅读全文

posted @ 2018-01-23 08:17 一石数字欠我15w!!! 阅读(510) 评论(0) 推荐(0)

python全栈学习路线-查询笔记

摘要：查询目录一，硬件十一，数据库二，Linux基础十二，前端三，python基础十三，Django 四，python文件处理十四，flask 五，函数十五，版本控制-Git 六，模块和包十六，缓存七，面向对象十七，爬虫八，异常处理十八，项目九，网络编程十九，源码解读十，进阅读全文

posted @ 2018-01-20 12:04 一石数字欠我15w!!! 阅读(6778) 评论(12) 推荐(9)

爬虫相关

摘要：爬虫目录：第一篇：请求库request 第二篇：请求库selenum 第三篇：解析库：re，beautifulsoup 第四篇：存储库MongoDB 第五篇：校花网视频爬取第六篇：github免密登陆第七篇：拉钩，51job自动投递简历第八篇：如何提高爬虫性能第九篇：爬虫框架scrapy 阅读全文

posted @ 2018-01-20 10:38 一石数字欠我15w!!! 阅读(111) 评论(0) 推荐(0)

解析库-beautifulsoup模块

摘要：import requests from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dor 阅读全文

posted @ 2018-01-19 13:54 一石数字欠我15w!!! 阅读(394) 评论(0) 推荐(0)

拉勾网自动发送简历

摘要：# -*- coding: utf-8 -*- import re import requests session = requests.session() # 第一步，访问51job登录页面 # 请求url： https://login.51job.com/login.php # 请求方式：get 阅读全文

posted @ 2018-01-17 18:50 一石数字欠我15w!!! 阅读(3177) 评论(1) 推荐(0)

请求库-selenium 模块

摘要：from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common. 阅读全文

posted @ 2018-01-17 15:52 一石数字欠我15w!!! 阅读(281) 评论(0) 推荐(0)

github免密登陆

摘要：import requests import re # 一：先获取登陆页面，拿到authenticity_token: # 1 请求的url:https://github.com/login # 2 请求方法：GET # 3 请求头： # User-Agent r1 = requests.get('https://github.com/login', ... 阅读全文

posted @ 2018-01-15 22:03 一石数字欠我15w!!! 阅读(1630) 评论(0) 推荐(0)

请求库-request使用

摘要：# -*- coding: utf-8 -*- import requests from urllib.parse import urlencode # python模仿百度搜索引擎 # keyword = input(">>:").strip() # res = urlencode({"wd": keyword}, encoding="utf-8") # url = "https://www... 阅读全文

posted @ 2018-01-15 22:01 一石数字欠我15w!!! 阅读(635) 评论(0) 推荐(0)

校花网视频爬取

摘要：# 简易版爬取校花网视频import requests import re import hashlib import time movie_path = "C:\mp4" #视频存储目录 def get_page(url): ''' 返回一个字符串的网页页面 :param url: :return: ''' try: ... 阅读全文

posted @ 2018-01-15 21:13 一石数字欠我15w!!! 阅读(2146) 评论(2) 推荐(0)

一石数字欠我15W❗

画饼四年不涨薪没事。但是他贪污我10000垫付款不行❗

随笔分类 - 爬虫

公告