上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: #!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = 'Fade Zhao' import time from selenium import webdriver from selenium.webdriver.common.by import By from bs4 import BeautifulSoup from pymon... 阅读全文
posted @ 2017-12-11 01:08 LeeeetMe 阅读(250) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = 'Fade Zhao' from selenium import webdriver import time from selenium.webdriver.common.keys import Keys url = "http://www.baidu.com" browse... 阅读全文
posted @ 2017-12-11 01:07 LeeeetMe 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫按照系统结构和实现技术,大致分为以下几种类型: 1、通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫,实际的网络爬虫系统通常是几种爬虫技术相结合实现的。 a.通用网络爬虫:类似于搜索引擎一样,通过关键字的检索搜索相关的网络数据。 b.聚焦网络爬虫:一个自动下载网页的程序,根据抓取目标 阅读全文
posted @ 2017-12-06 14:46 LeeeetMe 阅读(319) 评论(0) 推荐(0) 编辑
摘要: taskWorker.py 结果: 注意,当我们在一台机器上写多进程程序时,创建的Queue可以直接拿来用,但是,在分布式多进程环境下,添加任务到Queue不可以直接对原始的task_queue进行操作,那样就绕过了QueueManager的封装,必须通过manager.get_task_queue 阅读全文
posted @ 2017-12-03 20:03 LeeeetMe 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 协程(coroutine),又称微线程,纤程,是一种用户级别的轻量级线程,协程拥有自己的寄存器上下文和栈,协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存寄存器上下文和栈。因此协程能保留上一次调用时的状态,每次过程重入时,就相当于上一次调用的状态。在并发编程中,协程与县 阅读全文
posted @ 2017-12-03 18:38 LeeeetMe 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 遇到的坑: 1、在爬取盗墓笔记-藏海花的时候,碰到数据爬取不到的现象,发现部分【藏海花】章节的网页结构和其他的不同,导致获取不到数据,改正后重新填充。 2、在xpath中,即使已经通过xpath筛选到对象;如果将此对象另外筛选,必须要在筛选条件之前加上[ . ] 代表的是当前节点下,否则默认的范围是 阅读全文
posted @ 2017-12-01 00:26 LeeeetMe 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 如果爬虫爬取速度过快,很容易被反爬虫给禁掉IP,公司的网络,大部分的网络是一种动态分配的,对待这种情况 变化方案和设置IP代理,除了这点也要考虑网站门户的访问压力。 主要有效方案: 1、设置IP代理池。 2、adsl定时拨号()。设置爬虫的 ip代理: middlewares.py 上边只是简单的在 阅读全文
posted @ 2017-12-01 00:24 LeeeetMe 阅读(407) 评论(0) 推荐(0) 编辑
摘要: Scrapy中Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回并通过Pipelines中的函数对返回的item进行处理,有点类似Django中的models,却简单的多。 创建Item类: 定义Item非常简单,只需要继承 scrapy.Item 类,并将所有字段都定义为scr 阅读全文
posted @ 2017-11-30 10:33 LeeeetMe 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 安装sqlalchemy: 戳这里 注意: 如果数据库的表格已经存在,可以通过 sqlacodegen模块 生成model。->传送门 sqlacodegen --noviews --noconstraints --noindexes --outfile /Users/_Alex/Desktop/s 阅读全文
posted @ 2017-11-30 10:33 LeeeetMe 阅读(771) 评论(0) 推荐(0) 编辑
摘要: User-Agent: User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 实际中他是这个样子的: User-Agent:Mozilla/5.0 (Macintos 阅读全文
posted @ 2017-11-30 10:32 LeeeetMe 阅读(893) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 8 下一页