02 2018 档案

八、多线程爬虫(先占个位置,等整理好线程,进程,协程,异步IO在来写)
摘要:计算机的核心是CPU,CPU承担了所有的计算任务。 一个CPU核心,一次只能执行一个任务; 多个CPU核心同时可以执行多个任务。 一个CPU一次只能执行一个进程,其他进程处于非运行状态。 进程里包含的执行单元叫线程; 一个进程可以包含多个线程。 一个进程的内存空间是共享的,每个进程里的线程都可以使用 阅读全文

posted @ 2018-02-28 19:14 酱紫安 阅读(180) 评论(0) 推荐(0) 编辑

三、scrapy后续
摘要:CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以用这个... class scrapy.spiders.CrawlSpider 它是Spider的派生类,Spider类的设计原则是 阅读全文

posted @ 2018-02-27 21:29 酱紫安 阅读(309) 评论(0) 推荐(0) 编辑

二、Item Pipeline和Spider-----基于scrapy取校花网的信息
摘要:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2018-02-27 16:56 酱紫安 阅读(410) 评论(0) 推荐(0) 编辑

一、代码风格
摘要:刚开始学的时候就要注意编码规范了,所以整理了一下,以便养成一个编码好习惯。不然以后真的不好改。 代码被读的次数远大于被写的次数。 作为一名程序员(使用任何语言),你能做出最重要的事情之一就是写出易于阅读的代码。 原则 在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体 阅读全文

posted @ 2018-02-26 19:15 酱紫安 阅读(477) 评论(0) 推荐(1) 编辑

八、线程和进程
摘要:什么是线程(thread)? 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。 一个线程是一个执行上下文,它是一个CPU需要执行一系列指令的所有信息。假设你正在读一 阅读全文

posted @ 2018-02-25 22:11 酱紫安 阅读(320) 评论(0) 推荐(0) 编辑

七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录
摘要:每天一个小实例1(动态页面模拟点击,并爬取你想搜索的职位信息) 结果: 每天一个小实例2(模拟网站登录) 结果: 登录前后截图: 基本应用: 我用的是Python3、selenium2.53.5、PhantomJS Selenium(最新版本的Selenium已经不支持PhantomJS了,要想用请 阅读全文

posted @ 2018-02-24 19:23 酱紫安 阅读(2498) 评论(0) 推荐(0) 编辑

一、scrapy的下载安装---Windows(安装软件太让我伤心了)
摘要:写博客就和笔记一样真的很有用,你可以随时的翻阅。爬虫的爬虫原理与数据抓取、非结构化与结构化数据提取、动态HTML处理和简单的图像识别已经学完,就差整理博客了 开始学习scrapy了,所以重新建了个分类。 scrapy的下载到安装,再到能够成功运行就耗费了我三个小时的时间,为了防止以后忘记,记录一下。 阅读全文

posted @ 2018-02-23 17:12 酱紫安 阅读(14843) 评论(2) 推荐(2) 编辑

六、BeautifulSoup4------自动登录网站(手动版)
摘要:每天一个小实例:(按照教学视频上自动登录的网站,很容易就成功了。自已练习登录别的网站,问题不断) 这个自己分析登录boss直聘。我用了一下午的时间,而且还是手动输入验证码,自动识别输入验证码的还没成功,果然是师傅领进门,修行看个人,以后要多练 第一步、先访问网站,分析一下登录需要什么数据 第二步、创 阅读全文

posted @ 2018-02-22 12:07 酱紫安 阅读(1098) 评论(0) 推荐(0) 编辑

五、XML与xpath--------------爬取美女图片
摘要:除了正则表达式处理HTML文档,我们还可以用XPath,先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 先用一个小实例开头吧(爬取贴吧每个帖子的图片) 运行结果: 打开存储图片的文件夹: 一、什么是XML? XML 指可扩展标记语言(eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安 阅读(1867) 评论(4) 推荐(5) 编辑

四、正则表达式re模块
摘要:什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正则表达式和另一个字符 阅读全文

posted @ 2018-02-20 12:00 酱紫安 阅读(319) 评论(0) 推荐(0) 编辑

三、Requests库的使用
摘要:requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 学过关于urllib库的使用,你会发现它是很不方便的。而Requests工作起来会比urllib方便,Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安 阅读(829) 评论(2) 推荐(0) 编辑

二、urllib进阶
摘要:Handler处理器 和 自定义Opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安 阅读(317) 评论(0) 推荐(0) 编辑

一、爬虫的基本体系和urllib的基本使用
摘要:爬虫 网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 爬虫的分类 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件 阅读全文

posted @ 2018-02-19 09:49 酱紫安 阅读(523) 评论(2) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示