随笔分类 -  爬虫

摘要:1、引入 from selenium import webdriver from selenium.webdriver import ActionChains # 滑动验证码 from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By 阅读全文
posted @ 2018-10-03 16:19 nick560 编辑
摘要:from selenium import webdriver from selenium.webdriver.common.keys import Keys from time #time。sleep()实现延时 profile = webdriver.FirefoxProfile() profile.set_preference('browser.download.dir', 'd:\\... 阅读全文
posted @ 2018-10-02 16:06 nick560 编辑
摘要:速度问题 最近工作中遇到这么一个问题,全站抓取时采用分布式:爬虫A与爬虫B,爬虫A给爬虫B喂饼,爬虫B由于各种原因运行的比较慢,达不到预期效果,所以必须对爬虫B进行优化。 提升Scrapy运行速度有很多方法,国外有大佬说过 Speed up web scraper Here's a collecti 阅读全文
posted @ 2018-06-14 21:44 nick560 编辑
摘要:from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.suppor... 阅读全文
posted @ 2018-06-11 11:13 nick560 编辑
摘要:利用scrapy、proxy_pool、cookie_pool抓取新浪微博:用户信息、关注列表、粉丝列表、微博内容,信息保存至MongoDB。以几个大V为起点,爬取个人信息、粉丝、关注、微博信息,然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息,以此类推,实现递归爬取。 1、 spider 阅读全文
posted @ 2018-06-11 11:02 nick560 编辑
摘要:1、多线程 #IO密集型程序应该用多线程 import requests from threading import Thread,current_thread def parse_page(res): print('%s 解析 %s' %(current_thread().getName(),le 阅读全文
posted @ 2018-06-08 12:44 nick560 编辑
摘要:拉勾网验证流程: 1、请求登录页面: 请求url为:https://passport.lagou.com/login/login.html 请求头并没有什么内容,带上简单的Host,User-Agent把自己伪装成浏览器即可 响应头里包含有效的cookie信息 Set-Cookie:JSESSION 阅读全文
posted @ 2018-06-06 21:20 nick560 编辑
摘要:1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(!!!!!!!!! 优先 阅读全文
posted @ 2018-06-05 18:12 nick560 编辑
摘要:1、基本命令: 2、custom_settings custom_settings值为一个字典,定义一些配置信息,在运行爬虫程序时,这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前),由于settings会在类实例化前加载,但是后来居上cus 阅读全文
posted @ 2018-06-05 17:47 nick560 编辑
摘要:网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 阅读全文
posted @ 2018-06-05 12:23 nick560 编辑
摘要:1、spider.py # -*- coding: utf-8 -*- import scrapy from ..items import BigfileItem class ChoutiSpider(scrapy.Spider): name = "chouti" allowed_domains = 阅读全文
posted @ 2018-06-05 11:28 nick560 编辑
摘要:Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供 阅读全文
posted @ 2018-06-04 20:53 nick560 编辑
该文被密码保护。
posted @ 2018-06-01 10:39 nick560 编辑
摘要:#如果URL中 传参数 查询关键词是中文或者有其他特殊符号,则必须进行url编码 urlencode 旧写法 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,reque 阅读全文
posted @ 2018-06-01 10:39 nick560 编辑
摘要:1、文本邮件发送 import smtplib from email.mime.text import MIMEText from email.utils import formataddr my_sender = '477931661@qq.com' # 发件人邮箱账号 my_pass = 'de 阅读全文
posted @ 2018-05-30 16:56 nick560 编辑
摘要:pip install wordcloud 没有报错,如果有错误可以从http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载whl文件直接安装。 用法比较简单,注释很详细。有个坑人的地方在于font_path设置,尝试了一下几种形式均报错IO e 阅读全文
posted @ 2018-05-22 23:18 nick560 编辑
摘要:#!/usr/bin/env python # -*- coding:utf-8 -*- import time import requests from bs4 import BeautifulSoup session = requests.Session() i1 = session.get( 阅读全文
posted @ 2018-05-07 15:35 nick560 编辑
摘要:config.py (创建) MONGO_URL='localhost'MONGO_DB='taobao'MONGO_TABLE='prodect' spider.py 1、链接 2、use 数据库 3、查看库下所有的集合 4、创建集合 5、增加数据 import datetime user0={ 阅读全文
posted @ 2018-04-26 16:36 nick560 编辑