摘要: 1.安装scrapy框架 安装scrapy:通过pip install scrapy (如果无法安装,在 http://www.lfd.uci.edu/~gohlke/pythonlibs/ twisted 下载twisted对应版本的whl文件 ) 还要安装pypiwin32 通过pip inst 阅读全文
posted @ 2018-09-19 14:51 欲得周郎顾 阅读(114) 评论(0) 推荐(0) 编辑
摘要: css选择器: 1.根据标签的名字选择: p{ background color:pink } 2.根据类名选择,要在类名前加一个点: .line{ background color:pink } 3.根据id名选择 要在id前加一个 : box{ background color:pink } 4 阅读全文
posted @ 2018-09-13 16:55 欲得周郎顾 阅读(158) 评论(0) 推荐(0) 编辑
摘要: find_all的使用:在提取标签的时候,第一个参数是标签的名字,在提取标签的时候想要提取标签属性进行过滤,那么可以在这个方法中通过关键字参数的形式,将属性的名字以及对应的值传进去,或者是使用'attrs'属性,将所有的属性以及对应的值放在一个字典中传给'attrs'属性 在提取标签的时候 不想提取 阅读全文
posted @ 2018-09-13 11:56 欲得周郎顾 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 1. 使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择,示例代码如下: trs = html.xpath("//tr[position() 2]") xpath函数返回的永远是一个列表 2.获取某个标签的属性: href = html.xpath("//a/@href 阅读全文
posted @ 2018-09-11 21:35 欲得周郎顾 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 使用//获取整个页面中的元素,然后写标签名,然后用谓词进行提取。如: //div[@class='abc'] 注意: 1./和//的区别: /只获取子节点 , //获取子孙节点 一般//用的较多 视情况而定 2.contains:有时某个属性包含了多个值,那么可以使用contains函数如: //d 阅读全文
posted @ 2018-09-11 13:35 欲得周郎顾 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.res.text 和 res.content import requests res = requests.get('http://www.baidu.com/') print(type(res.text)) print(res.text) 自动解码 有时候不准确 print(type(res. 阅读全文
posted @ 2018-09-10 21:21 欲得周郎顾 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1. from urllib import request form urllib import parse rsp = request.urlopen('http://www.baidu.com/') 获取url的页面 print(rsp.getcode()) 获取页面的返回值 200为成功 pr 阅读全文
posted @ 2018-09-10 20:59 欲得周郎顾 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 1.进程是正在运行的程序的实例 每个进程都至少包含一个线程 2.计算机程序是由指令组成的 进程是这些指令的实际运行体 3.进程的状态:被创建 就绪 运行 阻塞 挂起 终止等状态 用subprocess模块来管理进程 import subprocess 1.调用subprocess.call()创建进 阅读全文
posted @ 2018-09-07 20:08 欲得周郎顾 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1.插入的一端叫队尾 删除的一端叫队首 插入一个队列元素叫入队 删除一个队列元素叫出队 遵循先进先出原则 class Queue(object): 自定义类Queue 利用Python实现队列的数据结构 def __init__(self): 构造一个列表queue实现队列的容器 self.queu 阅读全文
posted @ 2018-09-07 16:57 欲得周郎顾 阅读(328) 评论(0) 推荐(0) 编辑
摘要: Python系统定义好的数据结构 称为Python的内置数据结构 比如列表 元组 字典等 Python系统里没有直接定义 需要我们自己去定义实现 这些数据组织方式称为Python扩展数据结构 比如栈和 队列 1.栈的工作原理 先进后出 后进先出 2.构造函数 class Stack: """模拟栈" 阅读全文
posted @ 2018-09-07 16:27 欲得周郎顾 阅读(263) 评论(0) 推荐(0) 编辑