摘要: 爬虫的自我修养_5 一、CrawlSpiders类简介 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们 阅读全文
posted @ 2017-12-04 21:42 想54256 阅读(2676) 评论(0) 推荐(0) 编辑
摘要: 爬虫的自我修养_4 一、Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted[' 阅读全文
posted @ 2017-12-03 20:02 想54256 阅读(864) 评论(0) 推荐(0) 编辑
摘要: 爬虫的自我修养_3 一、CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整 阅读全文
posted @ 2017-12-02 19:03 想54256 阅读(7784) 评论(0) 推荐(1) 编辑
摘要: 爬虫的自我修养_2 一、Handler处理器 和 自定义Opener(引擎们) opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cooki 阅读全文
posted @ 2017-11-30 18:41 想54256 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫如何抓取网页数据: 网页三大特征: -1. 网页都有自己唯一的URL(统一资源定位符)来进行定位 -2. 网页都使用HTML (超文本标记语言)来描述页面信息。 -3. 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。 爬虫的设计思路: -1. 首先确定需要爬取的网页 阅读全文
posted @ 2017-11-30 12:36 想54256 阅读(3751) 评论(0) 推荐(0) 编辑
摘要: 数据结构 程序=数据结构+算法 数据结构就是设计数据以何种方式组织并存储在计算机中。列表、集合与字典等都是一种数据结构。 小Tips:列表中的元素是怎样存储的,操作的时间复杂度是多少? 栈 栈(Stack)是一个数据集合,可以理解为只能在一端进行插入或删除操作的列表。 栈的特点:后进先出 栈的基本操 阅读全文
posted @ 2017-11-29 20:43 想54256 阅读(891) 评论(0) 推荐(0) 编辑
摘要: 算法(Algorithm)概念:一个计算过程,解决问题的方法 递归的两大特点: 1、自己调用自己 2、有穷性(python默认只能递归999次)自己修改递归深度:sys.setrecursionlimit(100000) 时间复杂度 时间复杂度是一个估计的时间(正常人都说这个活还有几个月就完成了,没 阅读全文
posted @ 2017-11-28 21:48 想54256 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 组合搜索 方法一: models.py views.py url.py html 1 url(r'^article-(?P<article_type_id>\d+)-(?P<category_id>\d+).html', views.article), 1 from django.db import 阅读全文
posted @ 2017-11-26 20:16 想54256 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 一、用户和组相关的管理命令 1)创建用户:useradd 命令格式:useradd [options] LOGIN 选项: -u UID: [UID_MIN, UID_MAX], 定义在/etc/login.defs -g GID:指明用户所属基本组,可为组名,也可以GID; -c "COMMENT 阅读全文
posted @ 2017-11-23 15:04 想54256 阅读(1595) 评论(0) 推荐(0) 编辑
摘要: bash的编程环境 shell脚本:文本文件 文件的开头要写上解释程序的路径: #!/bin/bash #!/usr/bin/python #!/usr/bin/perl 运行脚本: 1、给予执行权限,通过具体的文件路径(./xxx)指定文件执行; 2、直接运行解释器,将脚本作为解释器程序的参数运行 阅读全文
posted @ 2017-11-20 11:21 想54256 阅读(207) 评论(0) 推荐(0) 编辑