随笔分类 -  爬虫

摘要:再用爬虫爬取数据的时候报错:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661) 好多博客我看都说是:网站证书的问题,取消证书验证就没问题了 找了三种解决办法: 1、在request请求的时候取消验证verif 阅读全文
posted @ 2019-06-15 09:11 一石数字欠我15w!!! 阅读(8203) 评论(0) 推荐(0) 编辑
摘要:# coding=utf-8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "etiaky.settings") import django import json import ctypes django.setup() import requests import re from bs4 import Beautif... 阅读全文
posted @ 2019-06-14 15:10 一石数字欠我15w!!! 阅读(724) 评论(3) 推荐(0) 编辑
摘要:原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) scrapy-redis组件 使用scrapy-redis的去重+调度实现分布式爬取 持久化 从Redis中获取起始URL # 完全复制粘贴过来的博客 阅读全文
posted @ 2018-01-26 19:59 一石数字欠我15w!!! 阅读(404) 评论(0) 推荐(0) 编辑
摘要:# 程序启动文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.path.dirname(os.path.dirname(os.path.realpath(__file__))) print(BASEPATH) sys.path.append(BASEPATH) from c... 阅读全文
posted @ 2018-01-24 18:33 一石数字欠我15w!!! 阅读(1161) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- # Scrapy settings for AMAZON project # # For simplicity, this file contains only settings considered important or # commonly u 阅读全文
posted @ 2018-01-24 17:25 一石数字欠我15w!!! 阅读(7749) 评论(0) 推荐(0) 编辑
摘要:介绍: Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文
posted @ 2018-01-23 12:46 一石数字欠我15w!!! 阅读(457) 评论(0) 推荐(0) 编辑
摘要:# 同步执行,效率慢 # import requests # def parse_page(res): # print("PAESE %s" %(len(res))) # # def get_page(url): # print("GET %s" %url) # response = requests.get(url) # if response.status_c... 阅读全文
posted @ 2018-01-23 08:21 一石数字欠我15w!!! 阅读(565) 评论(0) 推荐(0) 编辑
摘要:<!--done--> 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任 阅读全文
posted @ 2018-01-23 08:17 一石数字欠我15w!!! 阅读(482) 评论(0) 推荐(0) 编辑
摘要:查询目录 一,硬件 十一,数据库 二,Linux基础 十二,前端 三,python基础 十三,Django 四,python文件处理 十四,flask 五,函数 十五,版本控制-Git 六,模块和包 十六,缓存 七,面向对象 十七,爬虫 八,异常处理 十八,项目 九,网络编程 十九,源码解读 十,进 阅读全文
posted @ 2018-01-20 12:04 一石数字欠我15w!!! 阅读(6673) 评论(12) 推荐(9) 编辑
摘要:爬虫目录: 第一篇:请求库request 第二篇:请求库selenum 第三篇:解析库:re,beautifulsoup 第四篇:存储库MongoDB 第五篇:校花网视频爬取 第六篇:github免密登陆 第七篇:拉钩,51job自动投递简历 第八篇:如何提高爬虫性能 第九篇:爬虫框架scrapy 阅读全文
posted @ 2018-01-20 10:38 一石数字欠我15w!!! 阅读(105) 评论(0) 推荐(0) 编辑
摘要:import requests from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dor 阅读全文
posted @ 2018-01-19 13:54 一石数字欠我15w!!! 阅读(373) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- import re import requests session = requests.session() # 第一步,访问51job登录页面 # 请求url: https://login.51job.com/login.php # 请求方式:get 阅读全文
posted @ 2018-01-17 18:50 一石数字欠我15w!!! 阅读(3068) 评论(1) 推荐(0) 编辑
摘要:from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common. 阅读全文
posted @ 2018-01-17 15:52 一石数字欠我15w!!! 阅读(258) 评论(0) 推荐(0) 编辑
摘要:import requests import re # 一:先获取登陆页面,拿到authenticity_token: # 1 请求的url:https://github.com/login # 2 请求方法:GET # 3 请求头: # User-Agent r1 = requests.get('https://github.com/login', ... 阅读全文
posted @ 2018-01-15 22:03 一石数字欠我15w!!! 阅读(1552) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- import requests from urllib.parse import urlencode # python模仿百度搜索引擎 # keyword = input(">>:").strip() # res = urlencode({"wd": keyword}, encoding="utf-8") # url = "https://www... 阅读全文
posted @ 2018-01-15 22:01 一石数字欠我15w!!! 阅读(599) 评论(0) 推荐(0) 编辑
摘要:# 简易版爬取校花网视频import requests import re import hashlib import time movie_path = "C:\mp4" #视频存储目录 def get_page(url): ''' 返回一个字符串的网页页面 :param url: :return: ''' try: ... 阅读全文
posted @ 2018-01-15 21:13 一石数字欠我15w!!! 阅读(2049) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示