wei_hu - 博客园

摘要：阅读全文

posted @ 2018-05-21 21:56 wei_hu 阅读(507) 评论(0) 推荐(0) 编辑

摘要： Win7系统大家习惯“Win+R”的组合键打开命令提示符。方法/步骤2 通常情况下，我们点击鼠标右键是没有命令行选项的。方法/步骤3 在桌面上先按住Shift键，然后鼠标右键，出现选项“在此处打开命令窗口（W）”也可以打开命令行。点击“在此处打开命令窗口（W）”，进入CMD命令行界面。阅读全文

posted @ 2018-05-21 21:54 wei_hu 阅读(4588) 评论(0) 推荐(0) 编辑

安装json插件

摘要：谷歌浏览器中安装JsonView扩展程序实际开发工作中经常用到json数据，那么就会有这样一个需求：在谷歌浏览器中访问URL地址返回的json数据能否按照json格式展现出来。比如，在谷歌浏览器中访问：http://jsonview.com/example.json 展现效果如下：那么安装了J 阅读全文

posted @ 2018-05-21 21:50 wei_hu 阅读(3717) 评论(0) 推荐(0) 编辑

11.Scrapy登录

摘要： Request Request 部分源码：其中，比较常用的参数： Response 大部分参数和上面的差不多：发送POST请求可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。如果希望程序执行一开始就发送POST 阅读全文

posted @ 2018-05-21 21:39 wei_hu 阅读(311) 评论(0) 推荐(0) 编辑

11.CrawlSpiders

摘要： CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码：上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样... class scrapy.spiders.CrawlSpider 它是Spider的派生类，Spide 阅读全文

posted @ 2018-05-20 23:50 wei_hu 阅读(125) 评论(0) 推荐(0) 编辑

10.scrapy入门

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-05-16 00:08 wei_hu 阅读(159) 评论(0) 推荐(0) 编辑

9.json和jsonpath

摘要： JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块，直接import json就可以使用了。官方文档：http://docs.python.org/library/json.html Json在线解析网站：http://www.json.cn/# JSON json简单阅读全文

posted @ 2018-05-06 23:42 wei_hu 阅读(488) 评论(0) 推荐(0) 编辑

8.正则表达式和XPath

摘要： 1.使用正则表达式爬取内涵段子 2.使用XPath下载图片什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档：http://www.w3school.com.cn/ 阅读全文

posted @ 2018-05-06 13:57 wei_hu 阅读(6212) 评论(0) 推荐(1) 编辑

7.代理handler

摘要：简单的自定义opener() ProxyHandler处理器（代理设置）使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一阅读全文

posted @ 2018-05-04 00:02 wei_hu 阅读(182) 评论(0) 推荐(0) 编辑

6.python3爬虫之urllib库

摘要： Request 在我们第一个例子里，urlopen()的参数就是一个url地址；但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。浏览器就是互联网世界上公认被允许的身份阅读全文

posted @ 2018-05-02 23:37 wei_hu 阅读(249) 评论(0) 推荐(0) 编辑

导航

2018年5月21日

2018年5月20日

2018年5月16日

2018年5月6日

2018年5月4日

2018年5月2日