2018 年 2月随笔档案 - 酱紫安

八、多线程爬虫（先占个位置，等整理好线程，进程，协程，异步IO在来写）

摘要：计算机的核心是CPU，CPU承担了所有的计算任务。一个CPU核心，一次只能执行一个任务；多个CPU核心同时可以执行多个任务。一个CPU一次只能执行一个进程，其他进程处于非运行状态。进程里包含的执行单元叫线程；一个进程可以包含多个线程。一个进程的内存空间是共享的，每个进程里的线程都可以使用阅读全文

posted @ 2018-02-28 19:14 酱紫安阅读(180) 评论(0) 推荐(0) 编辑

三、scrapy后续

摘要：CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码：我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以用这个... class scrapy.spiders.CrawlSpider 它是Spider的派生类，Spider类的设计原则是阅读全文

posted @ 2018-02-27 21:29 酱紫安阅读(309) 评论(0) 推荐(0) 编辑

二、Item Pipeline和Spider-----基于scrapy取校花网的信息

摘要：Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2018-02-27 16:56 酱紫安阅读(410) 评论(0) 推荐(0) 编辑

一、代码风格

摘要：刚开始学的时候就要注意编码规范了，所以整理了一下，以便养成一个编码好习惯。不然以后真的不好改。代码被读的次数远大于被写的次数。作为一名程序员（使用任何语言），你能做出最重要的事情之一就是写出易于阅读的代码。原则在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前，考虑一些总体阅读全文

posted @ 2018-02-26 19:15 酱紫安阅读(477) 评论(0) 推荐(1) 编辑

八、线程和进程

摘要：什么是线程（thread）？线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。一个线程是一个执行上下文，它是一个CPU需要执行一系列指令的所有信息。假设你正在读一阅读全文

posted @ 2018-02-25 22:11 酱紫安阅读(320) 评论(0) 推荐(0) 编辑

七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录

摘要：每天一个小实例1（动态页面模拟点击，并爬取你想搜索的职位信息）结果：每天一个小实例2（模拟网站登录）结果：登录前后截图：基本应用：我用的是Python3、selenium2.53.5、PhantomJS Selenium（最新版本的Selenium已经不支持PhantomJS了，要想用请阅读全文

posted @ 2018-02-24 19:23 酱紫安阅读(2498) 评论(0) 推荐(0) 编辑

一、scrapy的下载安装---Windows（安装软件太让我伤心了）

摘要：写博客就和笔记一样真的很有用，你可以随时的翻阅。爬虫的爬虫原理与数据抓取、非结构化与结构化数据提取、动态HTML处理和简单的图像识别已经学完，就差整理博客了开始学习scrapy了，所以重新建了个分类。 scrapy的下载到安装，再到能够成功运行就耗费了我三个小时的时间，为了防止以后忘记，记录一下。阅读全文

posted @ 2018-02-23 17:12 酱紫安阅读(14843) 评论(2) 推荐(2) 编辑

六、BeautifulSoup4------自动登录网站（手动版）

摘要：每天一个小实例：（按照教学视频上自动登录的网站，很容易就成功了。自已练习登录别的网站，问题不断）这个自己分析登录boss直聘。我用了一下午的时间，而且还是手动输入验证码，自动识别输入验证码的还没成功，果然是师傅领进门，修行看个人，以后要多练第一步、先访问网站，分析一下登录需要什么数据第二步、创阅读全文

posted @ 2018-02-22 12:07 酱紫安阅读(1098) 评论(0) 推荐(0) 编辑

五、XML与xpath--------------爬取美女图片

摘要：除了正则表达式处理HTML文档，我们还可以用XPath，先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。先用一个小实例开头吧（爬取贴吧每个帖子的图片）运行结果：打开存储图片的文件夹：一、什么是XML？ XML 指可扩展标记语言（eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安阅读(1867) 评论(4) 推荐(5) 编辑

四、正则表达式re模块

摘要：什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符阅读全文

posted @ 2018-02-20 12:00 酱紫安阅读(319) 评论(0) 推荐(0) 编辑

三、Requests库的使用

摘要：requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。学过关于urllib库的使用，你会发现它是很不方便的。而Requests工作起来会比urllib方便，Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安阅读(829) 评论(2) 推荐(0) 编辑

二、urllib进阶

摘要：Handler处理器和自定义Opener opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安阅读(317) 评论(0) 推荐(0) 编辑

一、爬虫的基本体系和urllib的基本使用

摘要：爬虫网络是一爬虫种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。爬虫的分类传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件阅读全文

posted @ 2018-02-19 09:49 酱紫安阅读(523) 评论(2) 推荐(0) 编辑

酱紫安

02 2018 档案