2019 年 2月 22 日随笔档案 - 菜鸟SSS

2019年2月22日

摘要： import requests # 定义爬取url地址 base_url = 'https://www.baidu.com/' # 定义代理IP地址 proxies = {'http':'http://121.31.193.38:8123'} # 使用代理获取想要的页面 response = requests.request('get', base_url, proxies=proxies... 阅读全文

posted @ 2019-02-22 21:45 菜鸟SSS 阅读(247) 评论(0) 推荐(0) 编辑

IP代理（proxies参数）

摘要：在爬虫的过程中，我们经常会遇见很多网站采取了防爬取技术，或者说因为自己采集网站信息的强度和采集速度太大，给对方服务器带去了太多的压力。如果你一直用同一个代理ip爬取这个网页，很有可能ip会被禁止访问网页，所以基本上做爬虫的都躲不过去ip的问题。通常情况下，爬虫用户自己是没有能力去自己维护服务器或阅读全文

posted @ 2019-02-22 21:44 菜鸟SSS 阅读(2409) 评论(0) 推荐(0) 编辑

人人网（cookie登录）

摘要：有时候，我们在爬取一些网页之前必需要登录该网站，比如说我想爬取我的人人网主页内容。 1、打开：www.renren.com 2、输入用户名和密码，登录网站18679030315 3、个人首页，如下图：那么直接请求：http://www.renren.com/964508591/profile 可不阅读全文

posted @ 2019-02-22 21:32 菜鸟SSS 阅读(5543) 评论(0) 推荐(0) 编辑

Cookie，Session，正则表达式

摘要：一、Cookie和Session基础知识 Cookie：客户端本地存储的键值对 Http访问是不记录状态的，所以要借助session和cookie来保存访问状态具体来说cookie机制采用的是在客户端保持状态的方案，而session机制采用的是在服务器端保持状态的方案。 cookie 和sess 阅读全文

posted @ 2019-02-22 21:02 菜鸟SSS 阅读(1356) 评论(0) 推荐(0) 编辑

有道词典翻译（携带请求头和post参数请求）

摘要：一、静态爬取页面信息有道翻译网址：http://fanyi.youdao.com/ 在翻译中输入python 找到接口和请求的方式参数是From Data类型需要把参数数据转换为字典，复制粘贴后按住Ctrl + r ，然后 Headers 内容的长度是data携带参数的长度代码实现分析：阅读全文

posted @ 2019-02-22 20:10 菜鸟SSS 阅读(2698) 评论(1) 推荐(1) 编辑

爬取高德天气所有城市的天气

摘要： 1、打开网站：https://www.amap.com/ 2、按F12进入开发者界面，如下图 3、点击Network--XHR--刷新，如下图 4、找到存放天气的文件如何获取图中adcode，因为adcode为获取每个城市天气的标识。 ①复制adcode在上个图中的左下方文件中的Preview找到阅读全文

posted @ 2019-02-22 19:52 菜鸟SSS 阅读(1465) 评论(0) 推荐(0) 编辑

爬虫和数据

摘要：一为什么要做爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据: 百度指数：http://index.baidu.com/ 阿里指数：https://alizs.taobao.com/ TBI腾讯浏览指数：http://tbi.tencent.com/ 新浪微博指数：阅读全文

posted @ 2019-02-22 16:11 菜鸟SSS 阅读(498) 评论(0) 推荐(0) 编辑

菜鸟SSS

公告