上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 55 下一页
摘要: 一、前言 有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数 阅读全文
posted @ 2019-03-15 08:17 孔雀东南飞 阅读(417) 评论(0) 推荐(0) 编辑
摘要: Ajax 简介 Ajax 分析方法 Ajax 结果提取 阅读全文
posted @ 2019-03-15 07:53 孔雀东南飞 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 将爬取到的数据以 CSV 文件形式存储: 阅读全文
posted @ 2019-03-15 07:47 孔雀东南飞 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 将爬取到的数据以 Json 文件形式存储: 结果如下: 阅读全文
posted @ 2019-03-15 07:21 孔雀东南飞 阅读(1079) 评论(0) 推荐(0) 编辑
摘要: 将爬取的数据以 TXT 文本形式存储: 阅读全文
posted @ 2019-03-15 07:10 孔雀东南飞 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 使用 TXT 文本存储 使用 Json 文件存储 使用 CSV 文件存储 使用 MySQL 存储 使用 MongoDB 存储 使用 Redis 存储 阅读全文
posted @ 2019-03-15 06:35 孔雀东南飞 阅读(161) 评论(0) 推荐(0) 编辑
摘要: PyQuery 用法: (1) 前面我们爬取一个网页,都是使用正则表达式来提取想要的信息,但是这种方式比较复杂,一旦有一个地方写错,就匹配不出来了,因此我们可以使用 PyQuery(2) PyQuery 是一个网页解析库,如果你觉得正则写起来太麻烦,如果你觉得 BeautifulSoup 语法太难记 阅读全文
posted @ 2019-03-15 06:33 孔雀东南飞 阅读(131) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup 用法: (1) 前面我们爬取一个网页,都是使用正则表达式来提取想要的信息,但是这种方式比较复杂,一旦有一个地方写错,就匹配不出来了,因此我们可以使用 Beautiful Soup 来进行提取(2) Beautiful Soup 就是 Python 的一个 HTML 或 阅读全文
posted @ 2019-03-14 18:30 孔雀东南飞 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 如下图,有些网站需要使用用户名密码才可以登录,我们可以使用 requests 的 auth 参数来实现 阅读全文
posted @ 2019-03-14 16:38 孔雀东南飞 阅读(336) 评论(0) 推荐(0) 编辑
摘要: (1) 如果我们一直用同一个IP去请求同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来发起请求,代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https 阅读全文
posted @ 2019-03-14 16:37 孔雀东南飞 阅读(844) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 55 下一页