会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
wei_hu
导航
博客园
首页
新随笔
联系
订阅
管理
公告
上一页
1
2
3
4
5
6
7
8
···
11
下一页
2018年5月21日
vmtools是灰色不可用的
摘要:
阅读全文
posted @ 2018-05-21 21:56 wei_hu
阅读(507)
评论(0)
推荐(0)
编辑
右键在目录当前打开命令行cmd窗口
摘要: Win7系统大家习惯“Win+R”的组合键打开命令提示符。 方法/步骤2 通常情况下,我们点击鼠标右键是没有命令行选项的。 方法/步骤3 在桌面上先按住Shift键,然后鼠标右键,出现选项“在此处打开命令窗口(W)”也可以打开命令行。 点击“在此处打开命令窗口(W)”,进入CMD命令行界面。
阅读全文
posted @ 2018-05-21 21:54 wei_hu
阅读(4588)
评论(0)
推荐(0)
编辑
安装json插件
摘要: 谷歌浏览器中安装JsonView扩展程序 实际开发工作中经常用到json数据,那么就会有这样一个需求:在谷歌浏览器中访问URL地址返回的json数据能否按照json格式展现出来。 比如,在谷歌浏览器中访问:http://jsonview.com/example.json 展现效果如下: 那么安装了J
阅读全文
posted @ 2018-05-21 21:50 wei_hu
阅读(3717)
评论(0)
推荐(0)
编辑
11.Scrapy登录
摘要: Request Request 部分源码: 其中,比较常用的参数: Response 大部分参数和上面的差不多: 发送POST请求 可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。 如果希望程序执行一开始就发送POST
阅读全文
posted @ 2018-05-21 21:39 wei_hu
阅读(311)
评论(0)
推荐(0)
编辑
2018年5月20日
11.CrawlSpiders
摘要: CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... class scrapy.spiders.CrawlSpider 它是Spider的派生类,Spide
阅读全文
posted @ 2018-05-20 23:50 wei_hu
阅读(125)
评论(0)
推荐(0)
编辑
2018年5月16日
10.scrapy入门
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手
阅读全文
posted @ 2018-05-16 00:08 wei_hu
阅读(159)
评论(0)
推荐(0)
编辑
2018年5月6日
9.json和jsonpath
摘要: JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块,直接import json就可以使用了。 官方文档:http://docs.python.org/library/json.html Json在线解析网站:http://www.json.cn/# JSON json简单
阅读全文
posted @ 2018-05-06 23:42 wei_hu
阅读(488)
评论(0)
推荐(0)
编辑
8.正则表达式和XPath
摘要: 1.使用正则表达式爬取内涵段子 2.使用XPath下载图片 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/
阅读全文
posted @ 2018-05-06 13:57 wei_hu
阅读(6212)
评论(0)
推荐(1)
编辑
2018年5月4日
7.代理handler
摘要: 简单的自定义opener() ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设置一些代理服务器,每隔一
阅读全文
posted @ 2018-05-04 00:02 wei_hu
阅读(182)
评论(0)
推荐(0)
编辑
2018年5月2日
6.python3爬虫之urllib库
摘要: Request 在我们第一个例子里,urlopen()的参数就是一个url地址; 但是如果需要执行更复杂的操作,比如增加HTTP报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。 浏览器 就是互联网世界上公认被允许的身份
阅读全文
posted @ 2018-05-02 23:37 wei_hu
阅读(249)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
8
···
11
下一页