摘要: 1.docopt模块的用法 注意:文档注释之前不能再有文档注释,不然会报类型错误 输出结果 2.处理命令行参数 命令行参数存储在变量sys.argv中。sys.argv列表中的第一项总是一个字符串,它包含程序的文件名(‘pw.py’)第二项应该是第一个命令行参数。 项目一:获取口令 准备知识 pyp 阅读全文
posted @ 2018-05-27 08:17 不停地走 阅读(755) 评论(0) 推荐(0) 编辑
摘要: 一.遇到的问题总结 scrapy中爬取的多有数据(通过spider.py),最后必须通过items实例格式化后,传递到pipelines中进行进一步的处理(注意scrapy内置的pipelines文件,像下载图pain) Request中meta参数的作用是传递信息给下一个函数,使用过程可以理解成: 阅读全文
posted @ 2018-04-22 09:55 不停地走 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 一.曾经最头疼的问题 xpath中 // 与 .// 的区别 上面是一个简单的示例文档结构,在selenium中webElement也有一个findElement的方法,用于查找该元素下的子孙元素,假如我们已经获得了C元素,我们现在要获取C元素下的b元素:请注意以下两种代码的区别。 写法一:webE 阅读全文
posted @ 2018-04-21 19:51 不停地走 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 前期的配置工作在之前的一篇博文中有提到过,现在直接进行爬取 一.创建项目 二.创建spider文件 三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式,开始编写patubole.py文件。网络的爬取是通过这个文件进行的 以下代码是最终的代码 所建的patubole.py文件必须实 阅读全文
posted @ 2018-04-21 17:06 不停地走 阅读(1076) 评论(1) 推荐(1) 编辑
摘要: 一.元素的包含提取 contains() 例:span标签中class包含bookmark-btn 二.css选择器 3.css选择器提取标签中的值 h1标签包含的文字 4.css选择器提取标签中属性的值 二.在你爬取网页的时候,最普遍的事情就是在页面源码中提取需要的数据,我们有几个库可以帮你完成这 阅读全文
posted @ 2018-04-20 22:35 不停地走 阅读(207) 评论(0) 推荐(0) 编辑
摘要: <1>linux版本 http://sourceforge.net/projects/mysql-python/ 下载,在安装是要先安装setuptools,然后在下载文件目录下,修改mysite.cfg,指定本地mysql的mysql-config文件的路径 <2>windows版本 网上搜索到一 阅读全文
posted @ 2018-04-20 17:07 不停地走 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 一. Python-MySQLdb中的DictCursor使用方法简介 阅读全文
posted @ 2018-04-20 17:01 不停地走 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 下载和安装pywin32 1.下载与python对应python 32位的版本 下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/Build 220/ 下载完按提示安装即可 2.如果下载成64位或者版本不同往往会出现报错: 3.虚 阅读全文
posted @ 2018-04-18 20:48 不停地走 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 1.安装python3.4虚拟环境 2.安装Scrapy框架 2.1 升级pip 安装好之后在cmd里执行 python -m pip install -upgrade pip 把pip提到最新版本 下载lxml 以及twisted lxml是解析网页用的,scrapy依赖于它,它是一个第三方的库, 阅读全文
posted @ 2018-04-18 17:29 不停地走 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 写在前面 如非特别说明,下文均基于Python3 命名空间与作用于跟名字的绑定相关性很大,可以结合另一篇介绍Python名字、对象及其绑定的文章。 同一个模块中的两个函数中,两个同名名字i之间绝没有任何关系,因为它们分属于不同明明空间。 1.2 命名空间的种类 常见的命名空间有: built-in名 阅读全文
posted @ 2018-04-18 15:28 不停地走 阅读(515) 评论(0) 推荐(0) 编辑