摘要: 非结构化数据:HTML(正则表达式、XPath、CSS选择器) 结构化数据:JSON文件(JSON Path、转化为Python类型进行操作) XML文件(转化成Python类型、XPath、CSS选择器) 1、正则表达式 它是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字 阅读全文
posted @ 2018-07-29 13:01 Nice1949 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1、安装 利用 pip 安装 或者利用 easy_install 都可以完成安装: pip install requests easy_install requests 2、基本GET请求(headers参数 和 parmas参数) 2.1、 最基本的GET请求可以直接用get方法 方法1:resp 阅读全文
posted @ 2018-07-29 02:57 Nice1949 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 1、简单的自定义opener() 在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。 2、ProxyHandler处理器(代理设置) urllib2中通 阅读全文
posted @ 2018-07-29 02:42 Nice1949 阅读(257) 评论(0) 推荐(0) 编辑