随笔分类 -  爬虫

菜鸡学习python爬虫之路
摘要:cookie 一共俩参数应该是有阿里云生成:测试后发现可以是固定值,估计是用来监控异常设备的 _abfpc= 8be8421a52dbf3581f5e75423587524390ffc509_2.0 cna=060e2fa4d449bf9c160f7e5a77fe7ad3 在登录请求中需要携带两个参 阅读全文 »
posted @ 2024-10-11 17:56 Mr、Kr 阅读(94) 评论(0) 推荐(0) 编辑
摘要:很久没有更新博客了,最近忙着接一些js的脚本外包,忙着背各种面经八股文,今天把刚刚更新了的小鱼高校平台助手相关的一些东西说明一下吧 如图目前挂在github下的软件的官网被bing给收录了,github内的源码地址也同样被收录其中,这让我有一些惊喜 那么言归正传关于软件出现的一些问题进行一下答复, 阅读全文 »
posted @ 2023-05-19 00:18 Mr、Kr 阅读(3022) 评论(0) 推荐(0) 编辑
摘要:本次过程仅供学习参考,请遵守相关法律法规。 首先我们分析网站:https://www.mzitu.com/all/ 不难发现,这个页面上包含了大量的图片链接,可以说是特别方便我们爬取图片的,这是件好事。那么我们继续分析 这是第一页的地址 这是第二页的,所以我们爬取的时候只需要在链接后面增加“/num 阅读全文 »
posted @ 2020-03-19 08:59 Mr、Kr 阅读(1906) 评论(0) 推荐(0) 编辑
摘要:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文 »
posted @ 2020-03-18 21:52 Mr、Kr 阅读(316) 评论(0) 推荐(0) 编辑
摘要:如果同一个IP短时间内多次访问统一网页,可能会被系统识别出是爬虫,因此使用代理IP可以很大程度上解决这一问题 常用的代理有: 西刺免费代理:www.xicidaili.com 快代理:www.kuaidaili.com 代理云:www.dailiyun.com 那么我们如何知道自己的代理IP是否已经 阅读全文 »
posted @ 2020-03-18 20:57 Mr、Kr 阅读(594) 评论(0) 推荐(0) 编辑
摘要:网络请求的方式 http网络请求有八种 : GET POST HEAD PUT DELETE CONNECT TRACE OPTIONS最常见的请求方式为 GET 和 POSTget:当客户端要从服务器中读取文档时,当点击网页上的链接或者通过在浏览器的地址栏输入网址来浏览网页的,使用的都是GET方式 阅读全文 »
posted @ 2020-03-18 20:56 Mr、Kr 阅读(251) 评论(0) 推荐(0) 编辑
摘要:以下是我们学校对于期末考试成绩临时查询的一个网站 我突发奇想,可不可以通过爬虫的方式批量获取成绩信息 于是说干就干 首先观察网页的请求 通过查看,我们可以很明显看到网站查询是通过对https://wxzx.cqyti.com/wxProject/ScoreQuery.do进行post请求而来的,令人 阅读全文 »
posted @ 2020-01-02 05:36 Mr、Kr 阅读(3869) 评论(3) 推荐(0) 编辑

点击右上角即可分享
微信分享提示