摘要: import requests # 定义爬取url地址 base_url = 'https://www.baidu.com/' # 定义代理IP地址 proxies = {'http':'http://121.31.193.38:8123'} # 使用代理获取想要的页面 response = requests.request('get', base_url, proxies=proxies... 阅读全文
posted @ 2019-02-22 21:45 菜鸟SSS 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果你一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip的问题。 通常情况下,爬虫用户自己是没有能力去自己维护服务器或 阅读全文
posted @ 2019-02-22 21:44 菜鸟SSS 阅读(2380) 评论(0) 推荐(0) 编辑
摘要: 有时候,我们在爬取一些网页之前必需要登录该网站,比如说我想爬取我的人人网主页内容。 1、打开:www.renren.com 2、输入用户名和密码,登录网站18679030315 3、个人首页,如下图: 那么直接请求:http://www.renren.com/964508591/profile 可不 阅读全文
posted @ 2019-02-22 21:32 菜鸟SSS 阅读(5294) 评论(0) 推荐(0) 编辑
摘要: 一、Cookie和Session基础知识 Cookie:客户端本地存储的键值对 Http访问是不记录状态的,所以要借助session和cookie来保存访问状态 具体来说cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保 持状态的方案。 cookie 和sess 阅读全文
posted @ 2019-02-22 21:02 菜鸟SSS 阅读(1344) 评论(0) 推荐(0) 编辑
摘要: 一、静态爬取页面信息 有道翻译网址:http://fanyi.youdao.com/ 在翻译中输入python 找到接口和请求的方式 参数是From Data类型 需要把参数数据转换为字典, 复制粘贴后按住Ctrl + r ,然后 Headers 内容的长度是data携带参数的长度 代码实现 分析: 阅读全文
posted @ 2019-02-22 20:10 菜鸟SSS 阅读(2611) 评论(1) 推荐(1) 编辑
摘要: 1、打开网站:https://www.amap.com/ 2、按F12进入开发者界面,如下图 3、点击Network--XHR--刷新,如下图 4、找到存放天气的文件 如何获取图中adcode,因为adcode为获取每个城市天气的标识。 ①复制adcode在上个图中的左下方文件中的Preview找到 阅读全文
posted @ 2019-02-22 19:52 菜鸟SSS 阅读(1454) 评论(0) 推荐(0) 编辑
摘要: 一 为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据: 百度指数:http://index.baidu.com/ 阿里指数:https://alizs.taobao.com/ TBI腾讯浏览指数:http://tbi.tencent.com/ 新浪微博指数: 阅读全文
posted @ 2019-02-22 16:11 菜鸟SSS 阅读(495) 评论(0) 推荐(0) 编辑