scrapy实战 - 随笔分类 - 坚强的小蚂蚁

第八天，scrapy的几个小技巧

摘要：一. 微博模拟登陆 1. 百度搜微博开放平台可满足爬取量不大的情况 2. 微博模拟登陆和下拉鼠标应对ajax加载 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https:// 阅读全文

posted @ 2018-09-28 15:33 坚强的小蚂蚁阅读(1050) 评论(0) 推荐(0)

第七天，反爬

摘要：DOWNLOAD_DELAY: 同一网站下个页面下载延迟时间一. 爬虫和反爬虫的斗争小技巧： 1. 在网页中右键查看源码和用F12查看是有区别的如果网页中大量使用ajax来加载数据，那么右键查看源码的方式只能看到ajax加载前的信息，F12看到的是ajax加载后的信息，我们一般用爬虫爬取的都是阅读全文

posted @ 2018-09-28 15:30 坚强的小蚂蚁阅读(241) 评论(0) 推荐(0)

第六天，拉勾网整站爬取

摘要：对应github地址：知乎和拉钩小技巧 1. cmder：模拟linux终端 2. 添加windows路径到pycharm环境中 import sys import os sys.path.insert(0, "E:\python_workshop\Article")，其中的0表示路径查找顺序另阅读全文

posted @ 2018-09-28 15:27 坚强的小蚂蚁阅读(682) 评论(0) 推荐(0)

第五天，知乎问题和回答字段提取和存入数据库

摘要：对应github地址：知乎和拉钩摘要： 1. Scrapy的Request类支持设置cookie属性，要在爬虫请求中带上cookie，可以重载Spider的start_requests方法。start_requests()方法可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_url 阅读全文

posted @ 2018-09-28 15:25 坚强的小蚂蚁阅读(661) 评论(0) 推荐(0)

第四天，同步和异常数据存储到mysql，item loader方法

摘要：github对应代码：伯乐在线文章爬取一. 普通插入方法 1. 连接到我的阿里云，用户名是test1，然后在navicat中新建数据库 2. 修改爬虫文件中日期的类型为date类型，原先是string 3. 参照items.py在navicat中创建表注意： 1）content类型是longte 阅读全文

posted @ 2018-09-14 14:08 坚强的小蚂蚁阅读(464) 评论(0) 推荐(0)

第三天，爬取伯乐在线文章代码，编写items.py，保存数据到本地json文件中

摘要：一. 爬取http://blog.jobbole.com/all-posts/中的所有文章 1. 编写jobbole.py简单代码 import scrapy from scrapy.http import Request from urllib import parse class Jobbole 阅读全文

posted @ 2018-09-14 13:50 坚强的小蚂蚁阅读(616) 评论(0) 推荐(0)

scrapy实战2，使用内置的xpath，re和css提取值

摘要：以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文

posted @ 2018-09-11 17:47 坚强的小蚂蚁阅读(6709) 评论(0) 推荐(1)

scrapy实战1，基础知识回顾和虚拟环境准备

摘要：视频地址 https://coding.imooc.com/learn/list/92.html 一. 基础知识回顾 1. 正则表达式 1）贪婪匹配，非贪婪匹配 .*? 非贪婪 .* 贪婪模式 2）中括号的三种用法： 1[34578][0-9]{9} 使用"-"表示区间，写多个值表示取任一个值 [^ 阅读全文

posted @ 2018-09-11 17:40 坚强的小蚂蚁阅读(392) 评论(0) 推荐(0)

坚强的小蚂蚁

每天都要有收获

随笔分类 - scrapy实战

公告