摘要: 步骤1.建立工程和Spider 步骤2.编写爬虫Spider 配置stocks.py文件 修改返回页面的处理 修改对新增url爬取请求的处理 步骤3.编写Piplines.py文件 定义对爬取项(Scraped Item)的处理类 配置ITEM_PIPLINES选项 修改setting.py 阅读全文
posted @ 2019-03-14 12:19 离去墨染 阅读(191) 评论(0) 推荐(0) 编辑
摘要: #!/user/bin/env python # -*- conding:utf-8 -*- import re import requests from bs4 import BeautifulSoup import traceback def get_html_text(url): try: r = requests.get(url,timeout = 30) ... 阅读全文
posted @ 2019-03-14 10:36 离去墨染 阅读(210) 评论(0) 推荐(0) 编辑
摘要: #!/user/bin/env python # -*- conding:utf-8 -*- import requests from lxml import etree import json class BtcSpider(object): def __init__(self): self.base_url = 'https://8btc.com/forum-61-'... 阅读全文
posted @ 2019-03-13 22:36 离去墨染 阅读(373) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python # _*_ coding: utf-8 _*_ # __author__ ='kong' from selenium import webdriver import os import time class GetCartoon(object): def __init__(self): self.startUrl = "... 阅读全文
posted @ 2019-03-13 22:33 离去墨染 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 目标:爬取全国报刊名称及地址 链接:http://news.xinhuanet.com/zgjx/2007-09/13/content_6714741.htm 目的:练习scrapy爬取数据 学习过scrapy的基本使用方法后,我们开始写一个最简单的爬虫吧。 目标截图: 1、创建爬虫工程 1 2 $ 阅读全文
posted @ 2019-03-13 22:30 离去墨染 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 创建scrapy工程 1 2 cd C:\Spider_dev\app\scrapyprojects scrapy startproject renren 1 2 cd C:\Spider_dev\app\scrapyprojects scrapy startproject renren 1 2 c 阅读全文
posted @ 2019-03-13 22:28 离去墨染 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 1、创建工程 1 scrapy startproject movie 1 scrapy startproject movie 1 scrapy startproject movie scrapy startproject movie 2、创建爬虫程序 1 2 cd movie scrapy gens 阅读全文
posted @ 2019-03-13 22:27 离去墨染 阅读(760) 评论(0) 推荐(0) 编辑
摘要: ''' 一 目标站点分析 浏览器输入https://github.com/login 然后输入错误的账号密码,抓包 发现登录行为是post提交到:https://github.com/session 而且请求头包含cookie 而且请求体包含: commit:Sign in utf8:✓ authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmD... 阅读全文
posted @ 2019-03-12 21:03 离去墨染 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Scheduler 阅读全文
posted @ 2019-03-12 20:59 离去墨染 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文
posted @ 2019-03-12 20:56 离去墨染 阅读(361) 评论(0) 推荐(0) 编辑