摘要: 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject) 在开始爬取之前,必须创建 阅读全文
posted @ 2018-06-30 18:38 莫失莫忘csbh 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 首先回顾一下MongoDB的基本操作: stringhashlistsetzset 增加mysql:insert into 表名(列) values(值)mongo:db.集合名.insert({}) 修改:mysql:update 表名 set 列=值 where 条件mongo:db.集合名.u 阅读全文
posted @ 2018-06-30 12:40 莫失莫忘csbh 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 在操作前需要启动mongodb数据库服务 1.首先打开dos窗口,然后选择路径到你的安装路径下的bin目录(我的路径是的D:mongo\mongodb\bin) 2.然后输入启动命令(D:mongo\data\db 是我的数据库文件的目录前边两个 – 不能少) mongod --dbpath D:m 阅读全文
posted @ 2018-06-30 12:28 莫失莫忘csbh 阅读(8682) 评论(0) 推荐(0) 编辑
摘要: # !/usr/bin/env python# -*- coding:utf-8 -*-from __future__ import unicode_literalsfrom threading import Timerfrom wxpy import *import requests bot = 阅读全文
posted @ 2018-06-30 11:31 莫失莫忘csbh 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 破解核心思路: 1、如何确定滑块滑动的距离? 滑块滑动的距离,需要检测验证码图片的缺口位置 滑动距离 = 终点坐标 - 起点坐标 然后问题转化为我们需要屏幕截图,根据selenium中的position方法并进行一些坐标计算,获取我们需要的位置 2、坐标我们如何获取? 起点坐标: 每次运行程序,位置 阅读全文
posted @ 2018-06-30 10:06 莫失莫忘csbh 阅读(32694) 评论(1) 推荐(6) 编辑
摘要: Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自 阅读全文
posted @ 2018-06-29 15:55 莫失莫忘csbh 阅读(645) 评论(0) 推荐(0) 编辑
摘要: HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:1 阅读全文
posted @ 2018-06-28 21:03 莫失莫忘csbh 阅读(874) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-28 17:55 莫失莫忘csbh 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 1 xx:信息 100 Continue 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。 101 Switching Protocols 服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。 2xx:成功 200 OK 请求成功(其后是对GET和POST 阅读全文
posted @ 2018-06-28 14:41 莫失莫忘csbh 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 启动 redis 客户端,打开终端并输入命令 redis-cli。该命令会连接本地的 redis 服务。 在以上实例中我们连接到本地的 redis 服务并执行 PING 命令,该命令用于检测 redis 服务是否启动。 在远程服务上执行命令 如果需要在远程 redis 服务上执行命令,同样我们使用的 阅读全文
posted @ 2018-06-27 11:28 莫失莫忘csbh 阅读(116) 评论(0) 推荐(0) 编辑