摘要:
logging 模块使用笔记: --在scrapy中使用方法 --普通项目中: 阅读全文
摘要:
Scrapy初识 1.0 为什么要学习scrapy 首先,requests+selenium就可以解决90%的爬虫需求,但是scrapy的出现不是能更好的99%解决爬虫需求. 而是为了让爬虫更快,更强 2.0 什么是scrapy Scrapy 是一个为了抓取网站数据,提取结构性数据而编写的应用框架, 阅读全文
摘要:
selenium 模拟登录: 阅读全文
摘要:
Selenium 与 PhantomJS Selenium Selenium 是一个web的自动化测试工具,最初是为了网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至 阅读全文
摘要:
XPath学习:(XML Path Language) XML:Extensible Markup Language (可扩展标记语言),被设计为传输和存储数据,其焦点是数据的内容 HTML:HyperText Markup Language(超文本标记语言), XPath 是一门在 XML 文档中 阅读全文
摘要:
Python爬取百度翻译的类方法写法: 阅读全文
摘要:
Requests模块学习: 1.0 Requests 初识 Requests 模块是一个第三方的库,首先我们要安装Requests.用pip安装,先看一下pip是哪个python 的版本。 然后用pip安装就OK 开始要导入 Requests 模块 然后我们试一下: 然后我们看一下得到的源码 源码里 阅读全文
摘要:
sys argv[] 这个函数就是一个列表,sys argv[0] 代表的程序本身, 1.0 sys argv[1] 取值 按列表的形式, 2.0 在python里面也可以用作与input相类似的功能 3.0 列表元素来自外部输入 4.0 外部输入从1开始 阅读全文
摘要:
Python 爬虫系统学习 (一) 阅读全文
摘要:
Python format 格式化函数: format()函数是格式化输出的一种形式,他与%s %()作用是相同的。 format 函数可以接受不限个参数,位置可以不按顺序。 这个 format()可以用来做URL构造: format(可以是数字,字符串,列表,字典,元组) 数字格式化 下表展示了 阅读全文