2018 年 9月 28 日随笔档案 - 坚强的小蚂蚁

2018年9月28日

摘要：一. 微博模拟登陆 1. 百度搜微博开放平台可满足爬取量不大的情况 2. 微博模拟登陆和下拉鼠标应对ajax加载 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https:// 阅读全文

posted @ 2018-09-28 15:33 坚强的小蚂蚁阅读(1037) 评论(0) 推荐(0) 编辑

第七天，反爬

摘要： DOWNLOAD_DELAY: 同一网站下个页面下载延迟时间一. 爬虫和反爬虫的斗争小技巧： 1. 在网页中右键查看源码和用F12查看是有区别的如果网页中大量使用ajax来加载数据，那么右键查看源码的方式只能看到ajax加载前的信息，F12看到的是ajax加载后的信息，我们一般用爬虫爬取的都是阅读全文

posted @ 2018-09-28 15:30 坚强的小蚂蚁阅读(226) 评论(0) 推荐(0) 编辑

第六天，拉勾网整站爬取

摘要：对应github地址：知乎和拉钩小技巧 1. cmder：模拟linux终端 2. 添加windows路径到pycharm环境中 import sys import os sys.path.insert(0, "E:\python_workshop\Article")，其中的0表示路径查找顺序另阅读全文

posted @ 2018-09-28 15:27 坚强的小蚂蚁阅读(662) 评论(0) 推荐(0) 编辑

第五天，知乎问题和回答字段提取和存入数据库

摘要：对应github地址：知乎和拉钩摘要： 1. Scrapy的Request类支持设置cookie属性，要在爬虫请求中带上cookie，可以重载Spider的start_requests方法。start_requests()方法可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_url 阅读全文

posted @ 2018-09-28 15:25 坚强的小蚂蚁阅读(604) 评论(0) 推荐(0) 编辑

坚强的小蚂蚁

每天都要有收获

公告