240      
    Alex   
  
    每个人都有属于自己的一片森林,也许我们从来不曾去过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢!   

08 2018 档案

摘要:Shell 变量 定义变量时,变量名不加美元符号($,PHP语言中变量需要),如: 注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则: 命名只能使用英文字母,数字和下划线,首个字符不能以数字开头。 中间不能有空格,可以使用下划线(_)。 不能使 阅读全文
posted @ 2018-08-29 01:15 Alex_c 阅读(135) 评论(0) 推荐(0) 编辑
摘要:简单分布式爬虫 一、简单分布式爬虫结构 主从模式,主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了, 在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需要与所有爬虫进行通信,因此可有看到 阅读全文
posted @ 2018-08-24 15:51 Alex_c 阅读(270) 评论(0) 推荐(0) 编辑
摘要:爬虫框架的基础和运行流程 基本的框架流程 基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下: 爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责URL链接的管理,维护已经爬取的URL集合和未爬取的URL集合,提供获取 阅读全文
posted @ 2018-08-24 12:04 Alex_c 阅读(1923) 评论(0) 推荐(0) 编辑
摘要:爬虫数据存储 1、 HTML正文抽取 1.1、存储为json 首先使用Requests访问http://seputu.com/,获取HTML文档内容,并打印内容,代码如下 1.2、爬虫异常发送邮件 开启网易邮件的第三方设置 获取邮箱授权码 #构造MIMEText对象时需要3个参数:邮件正文,MIME 阅读全文
posted @ 2018-08-23 20:13 Alex_c 阅读(190) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示